Hasty Briefsbeta

全部标签

#machine learning

共 485 篇

双语

Not All Tokens Are Meant to Be Forgotten
a year ago
- 大语言模型（LLMs）展现出人类水平的语言理解能力，但会记忆不需要的信息，如私有或受版权保护的内容。
- 现有遗忘方法面临过度遗忘问题，抑制遗忘样本中的所有标记，导致模型效用丧失。
- 定向信息遗忘（TIF）框架通过区分不需要词（UW）与通用词（GW）来改进遗忘效果。
- TIF采用带Logit偏好损失的定向偏好优化来遗忘UW，并通过保留损失维持GW。
- 在TOFU和MUSE基准测试中，TIF在保持模型效用的同时显著提升了遗忘有效性。
Try the latest Gemini 2.5 Pro before general availability
a year ago
- Gemini 2.5 Pro 是一个升级版智能模型，即将作为稳定版本正式发布。
- 该模型在LMArena上的Elo评分提升了24分（达1470分），在WebDevArena上提升了35分（达1443分）。
- 在编程领域表现卓越，领跑Aider Polyglot等基准测试，并在GPQA和HLE的数学、科学及推理测试中表现优异。
- 改进包括更佳的应答风格、结构组织与创意性。
- 开发者可通过Gemini API（Google AI Studio/Vertex AI）获取，并配有思维预算功能以控制成本/延迟。
- 正通过Gemini应用逐步推送。
Log-Linear Attention
a year ago
- Transformer中的注意力机制对序列建模至关重要，但其存在二次计算复杂度和线性内存复杂度的问题。
- 线性注意力与状态空间模型提供了线性时间、恒定内存的序列建模方式，但受限于其固定大小的隐藏状态。
- 对数线性注意力作为一种新机制被提出，通过使用对数级增长的隐藏状态集合，在效率与表达能力之间取得平衡。
- 该机制可应用于现有各类线性注意力变体，在保持矩阵乘法并行化优势的同时，实现对数线性计算复杂度。
- 案例研究表明，Mamba-2和对数线性门控DeltaNet等变体模型性能优于对应的线性时间模型。
Analog Foundation Models
a year ago
- 模拟内存计算（AIMC）显著提升神经网络推理的速度和能效
- AIMC带来噪声计算和严格量化约束等挑战
- 现有大语言模型在AIMC硬件上难以实现4比特级性能
- 新方法有效适配大语言模型至噪声多、低精度模拟硬件
- Phi-3-mini-4k-instruct和Llama-3.2-1B-Instruct等前沿模型保持与4比特权重、8比特激活基线相当的性能
- 该方法同时支持低精度数字硬件的量化部署
- 模型通过测试时计算缩放获得优势，表现优于静态量化模型
- 该研究弥合了高容量大语言模型与高效模拟硬件之间的鸿沟
Show HN: Glowstick – type level tensor shapes in stable rust
a year ago
- 该crate通过在类型系统中追踪张量形状，使Rust中的张量操作变得安全、简单且有趣。
- 提供了使用candle的示例，包括matmul（矩阵乘法）、reshape（重塑）、unsqueeze（增加维度）、squeeze（压缩维度）、narrow（窄化）、broadcast_add（广播加法）、transpose（转置）、conv2d（二维卷积）和flatten（展平）等操作。
- 该项目目前处于1.0之前的预发布阶段，意味着将会进行破坏性变更。
- 特性包括：将张量形状表示为类型、支持动态维度、人类可读的错误信息，以及手动检查类型级形状。
- 计划支持所有ONNX操作。
JavelinGuard: Low-Cost Transformer Architectures for LLM Security
a year ago
- JavelinGuard简介：一套低成本、高性能的Transformer架构，专为LLM安全设计
- 针对生产环境优化，最小模型仅需4亿参数
- 研究五种基于Transformer的架构：Sharanga、Mahendra、Vaishnava、Ashwina和Raudra
- 在九个对抗性数据集（包括NotInject、BIPIA、Garak和JavelinBench）上进行严格基准测试
- 与开源防护模型及GPT-4o等大型LLM的对比分析
- Raudra的多任务设计展现出最强的鲁棒性
- 每种架构在速度、可解释性和资源需求方面呈现独特权衡
"The Illusion of Thinking" – Thoughts on This Important Paper
a year ago
- 论文《思考的假象》探讨了AI和LLM的局限性，强调它们并非人类
- 将AI拟人化导致期望膨胀、监管紧迫和认知混乱，阻碍了技术发展
- AI发展史充满期望落空的周期，被称为'AI寒冬'，源于预期与现实的错配
- '学习'、'理解'、'偏见'等术语用于AI具有误导性，暗示了类人能力
- 论文反对将AI视为具有人类特质的实体，主张将其视为工具
- AI工具的人性化会导致荒谬场景，例如为AI-用户交互提议'宪法权利'
- 媒体等式研究表明人类容易过度信任计算机，这种行为自计算机诞生初期就已存在
- 微软Clippy的教训说明AI设计需保持谦逊，并管理用户预期
- AI应被视为变革性工具而非威胁，人类始终掌握其使用控制权
Self-Adapting Language Models
a year ago
- 介绍了自适应性大语言模型框架SEAL，该框架通过让大模型自主生成微调数据和更新指令来实现自我调适
- SEAL使模型能够产生自我编辑指令，这些指令可重组信息、指定优化超参数，或调用工具进行数据增强和基于梯度的更新
- 采用监督微调(SFT)实现持久化的权重更新，使模型获得长期适应能力
- 通过强化学习循环训练模型，将更新模型的下游性能作为奖励信号
- 与现有方法不同，SEAL直接利用模型自身生成的内容来控制其适应过程
- 实验表明SEAL在知识整合和少样本泛化方面效果显著，标志着语言模型向自主适应方向迈出重要一步
Rethinking Losses for Diffusion Bridge Samplers
a year ago
- 扩散桥是一种用于从非归一化分布中采样的深度学习方法。
- 使用重参数化技巧时，对数方差（LV）损失优于反向Kullback-Leibler（rKL）损失。
- 对于扩散桥或学习扩散系数的情况，LV损失无法保持与rKL损失的等价性。
- 采用对数导数技巧的rKL损失（rKL-LD）避免了概念性问题，且性能优于LV损失。
- 实验结果表明，rKL-LD损失在扩散桥中能带来更好的性能。
- rKL-LD需要更少的超参数优化，并能提供更稳定的训练过程。
AI Isn't Magic, It's Maths
a year ago
- AI并非魔法，而是复杂的数学与模式识别
- ChatGPT通过海量文本数据的模式预测回答，而非真正理解
- Midjourney通过统计学方法优化噪点来生成符合提示的艺术作品
- Claude等AI助手通过从训练数据中预测最可能答案来生成回复
- AI通过神经网络和概率计算等数学运算进行工作
- AI缺乏真正的理解力和常识，可能出现幻觉或捏造信息
- AI的偏见源于训练数据中反映的人类固有偏见
- GPT-4o和Claude 3等最新AI模型展现出更高的准确性和能力
- AI的进步来自更优质的数据、算力提升和算法改进
- AI只是工具而非生命体，其进步源于人类工程学的突破
Seven replies to the viral Apple reasoning paper – and why they fall short
a year ago
- 苹果公司关于大型推理模型（LRMs）局限性的论文引发了广泛讨论和媒体报道。
- 针对苹果论文的七种主要反驳意见被分析，从吹毛求疵到巧妙论证不一而足，但均未形成有力驳斥。
- 反驳意见的关键点包括：声称机器存在类人局限性、LRMs的输出标记限制，以及论文由实习生撰写等质疑。
- 论文研究结果表明，单纯扩大模型规模可能无法解决根本性推理问题，需要将符号AI与神经网络相结合。
- Salesforce公司的论文佐证了苹果的发现，显示现有模型在多轮推理任务中表现欠佳。
- 批评者认为论文案例有限，但作者相信未来会出现更多支持该结论的证据。
- 作者强调需要开发结合神经与符号方法的AI系统，以实现可靠推理。
Human-like object concept representations emerge naturally in multimodal LLMs
a year ago
- 本研究探讨了大语言模型(LLMs)和多模态LLMs如何发展出类人的物体表征能力。
- 研究人员从LLMs收集了470万组三元组判断数据，为1,854个自然物体推导出66维嵌入表示。
- 这些嵌入表示显示出与人类心理表征相似的语义聚类特征，且具有可解释性。
- 模型嵌入与大脑皮层特定区域(如纹外体区和梭状回面孔区)的神经活动模式存在对应关系。
- 研究结果表明LLMs形成的概念表征与人类认知存在基础性相似特征。
- 该研究推进了对机器智能的理解，为开发类人AI系统提供了理论依据。
- 相关数据和代码已公开，支持该领域的进一步研究。
Tiny-diffusion: A minimal implementation of probabilistic diffusion models
a year ago
- 2D数据集概率扩散模型的极简PyTorch实现
- 二维点数据集上前向扩散过程的可视化
- 逆向过程图示展示训练数据分布的恢复
- 学习率、模型规模等超参数的消融实验
- 学习过程对学习率的敏感性分析
- 模型配置在线性数据集上表现欠佳，生成模糊拐角
- 更长的扩散过程产生更优输出
- 二次调度方案未显优势，建议尝试余弦或S型曲线
- 隐藏层大小和深度实验中，模型容量未成瓶颈
- 时间步信息对模型有益，编码方式影响较小
- 正弦嵌入有助于学习高频函数
- 参考文献包含Datasaurus Dozen、HuggingFace的diffusers库等
Breaking Quadratic Barriers: A Non-Attention LLM for Ultra-Long Context Horizons
a year ago
- 提出了一种新型的非注意力机制架构，适用于具备超长上下文窗口处理能力（数十万至百万量级token）的大语言模型。
- 通过消除token间的注意力机制，避免了传统Transformer架构中二次方的内存与计算开销。
- 融合了四大核心技术：基于S4启发的状态空间模块实现近线性序列长度扩展、多分辨率卷积层捕捉局部上下文、轻量级循环监督器维护全局隐状态，以及检索增强的外部存储系统实现高效的高阶语义块嵌入存取。
MiniMax-M1 open-weight, large-scale hybrid-attention reasoning model
a year ago
- MiniMax-M1是全球首个开放权重的大规模混合注意力推理模型
- 采用混合专家架构(MoE)与闪电注意力机制
- 支持100万token的上下文长度，是DeepSeek R1的8倍
- 生成10万token时计算量仅为DeepSeek R1的25%
- 通过大规模强化学习在多领域任务上训练
- 创新性提出高效强化学习扩展算法CISPO
- 提供两个版本：MiniMax-M1-40K和MiniMax-M1-80K
- 在复杂任务上超越DeepSeek-R1、Qwen3-235B等模型
- 测试涵盖数学、编程、软件工程等多领域
- 支持函数调用，可通过vLLM或Transformers框架部署
I counted all of the yurts in Mongolia using machine learning
a year ago
- 《文明的陨落》播客发布了一集长达6小时45分钟关于蒙古帝国的节目，引发了对当代蒙古社会的新关注
- 进入21世纪后，蒙古国快速实现了减贫目标，经济高速增长且生育率保持健康水平，但仍受腐败和治理问题困扰
- 通过谷歌地图探索发现乌兰巴托存在大量蒙古包聚居区（蒙古包区），由此启动了一个利用机器学习统计蒙古包数量的项目
- 基于YOLO算法开发的机器学习模型通过人工标注卫星图像进行训练，累计标注了超过1万顶蒙古包作为训练数据
- 该项目通过Docker Swarm集群和租赁GPU实现规模化运算，处理了数百万张图像瓦片，最终统计出蒙古国全境共172,689顶蒙古包
- 城市蒙古包现象折射出蒙古从游牧社会向城镇化工业社会的转型，住房短缺导致蒙古包区持续存在
- 2002年土地私有化法案和《乌兰巴托2020总体规划》等政府开发蒙古包区的举措进展缓慢
- 文章进一步提出了关于蒙古城镇化、工业化进程及其发展挑战的深层思考
Reasoning by Superposition: A Perspective on Chain of Continuous Thought
a year ago
- 大语言模型（LLMs）通过思维链（CoTs）在推理任务中展现出强大性能。
- 在定向图可达性等推理任务中，连续型思维链的表现优于离散型思维链。
- 采用连续型思维链的双层Transformer可在D步（图直径）内解决定向图可达性问题。
- 离散型思维链需要O(n²)步（n为顶点数），效率较低。
- 连续型思维链将多个搜索边界编码为叠加态，实现类似并行BFS的探索。
- 离散型思维链仅追踪单一路径，导致顺序搜索并可能陷入局部最优。
- 实验证实，连续型思维链无需显式监督即可自然学习多路径探索能力。
Spherical CNNs (2018)
a year ago
- 球形CNN被提出用于分析球形图像，解决了传统CNN在处理平面图像时的局限性。
- 应用领域包括无人机/机器人/自动驾驶汽车的360度全景视觉、分子回归分析和气候建模。
- 直接将CNN应用于球形信号的平面投影会因空间变化失真而失效。
- 该论文提出了一种具有表达力且满足旋转等变性的球形互相关定义。
- 通过广义快速傅里叶变换(FFT)算法实现了高效计算。
- 在3D模型识别和原子化能量回归任务中验证了有效性。
A Python-first data lakehouse
a year ago
- 好的设计往往不被察觉，因为它无缝契合需求，使其隐于无形。
- 不到五分之一的AI模型能成功投入生产，通常需要数周或数月时间。
- 优秀的数据科学家既懂技术又懂业务需求，越是贴近问题越能创造更大影响力。
- 多数机器学习项目需要软件工程知识，而这正是许多数据科学家的短板。
- 模型投产存在两种问题模式：直接交付笔记本（脆弱）或转交DevOps团队（缓慢且昂贵）。
- 更好的解决方案是使用marimo、bauplan等Python优先工具，实现从原型到生产的无缝过渡。
- Marimo是强制顺序执行、规范变量作用域的现代笔记本，使代码具备可复用性。
- Bauplan云数据平台通过Python化工作流、数据版本控制和声明式环境简化生产基础设施。
- 两款工具都允许数据科学家直接复用笔记本代码进入生产环境，无需重构，既提升效率又减少交接环节。
- 未来改进方向包括更优的环境管理，以及跨工具的共享声明式配置体系。
Scaling On-Device GPU Inference for Large Generative Models
a year ago
- 生成式AI的进步使得大型机器学习模型在图像处理、音频合成和语音识别等领域实现了变革性突破。
- 设备端推理对隐私保护和效率至关重要，而GPU是目前最普及的设备端机器学习加速器。
- ML Drift是一个优化框架，它扩展了GPU加速推理引擎，使设备端能够运行参数量比现有模型多10至100倍的生成式AI工作负载。
- 该框架解决了跨GPU应用开发的挑战，并确保在移动端与桌面/笔记本平台间的兼容性。
- 相比现有开源GPU推理引擎，该框架实现了数量级性能提升。

About|Login

#machine learning

Not All Tokens Are Meant to Be Forgotten

Try the latest Gemini 2.5 Pro before general availability

Log-Linear Attention

Analog Foundation Models

Show HN: Glowstick – type level tensor shapes in stable rust

JavelinGuard: Low-Cost Transformer Architectures for LLM Security

"The Illusion of Thinking" – Thoughts on This Important Paper

Self-Adapting Language Models

Rethinking Losses for Diffusion Bridge Samplers

AI Isn't Magic, It's Maths

Seven replies to the viral Apple reasoning paper – and why they fall short

Human-like object concept representations emerge naturally in multimodal LLMs

Tiny-diffusion: A minimal implementation of probabilistic diffusion models

Breaking Quadratic Barriers: A Non-Attention LLM for Ultra-Long Context Horizons

MiniMax-M1 open-weight, large-scale hybrid-attention reasoning model

I counted all of the yurts in Mongolia using machine learning

Reasoning by Superposition: A Perspective on Chain of Continuous Thought

Spherical CNNs (2018)

A Python-first data lakehouse

Scaling On-Device GPU Inference for Large Generative Models