Hasty Briefsbeta

全部标签

#machine learning

共 485 篇

双语

FastVLM: Dramatically Faster Vision Language Model from Apple
a year ago
- FastVLM提出FastViTHD混合视觉编码器，专为高分辨率图像设计，显著减少token数量并降低编码时间
- 最小模型变体性能超越LLaVA-OneVision-0.5B，首字延迟快85倍，视觉编码器体积缩小3.4倍
- 采用Qwen2-7B大语言模型的更大变体超越Cambrian-1-8B，首字延迟快7.9倍且仅需单图像编码器
- 包含iOS演示应用，展示移动端性能表现
- 提供基于LLaVA代码库的训练与推理指导说明
- 配置需创建conda环境并通过pip安装依赖
- 开放FastVLM-0.5B/1.5B/7B三个量级的预训练模型检查点
- 包含PyTorch和Apple Silicon平台的推理运行指南
- 附CVPR 2025论文引用信息与致谢内容
- 使用前需查阅仓库许可协议与模型授权条款
TransMLA: Multi-head latent attention is all you need
a year ago
- 现代大型语言模型（LLMs）在当前硬件上面临通信瓶颈
- 多头潜在注意力（MLA）在键值（KV）层使用低秩矩阵压缩潜在KV状态，减少缓存大小并加速推理
- MLA采用上投影矩阵增强表达能力，以计算开销换取通信开销的降低
- MLA已在Deepseek V2/V3/R1中验证有效，但主流模型提供商仍采用分组查询注意力（GQA）
- GQA总能被具有相同KV缓存开销的MLA表示，反之则不成立
- TransMLA作为后训练方法被提出，可将基于GQA的预训练模型（如LLaMA、Qwen、Mixtral）转换为基于MLA的模型
- 转换后的模型可通过额外训练提升表达能力，且无需增加KV缓存大小
- 未来计划开发MLA专用推理加速技术，以保持转换模型的低延迟特性
Backslash: Rate Constrained Optimized Training of Large Language Models
a year ago
- 提出Rate-Constrained Training（反斜杠训练法）——一种面向大语言模型训练阶段的新型压缩方法
- 基于率失真优化理论（RDO），实现模型精度与复杂度的灵活权衡
- 在保持精度前提下降低60%-90%内存占用，性能超越训练后压缩方案
- 通过小拉格朗日乘数增强泛化能力，模型对剪枝的鲁棒性显著提升（最高支持80%剪枝率）
- 简化网络结构以加速边缘设备推理
Chrome's New Embedding Model: Smaller, Faster, Same Quality
a year ago
- Chrome最新版本推出了全新的文本嵌入模型，其体积比前代缩小57%（35.14MB对比81.91MB），同时在语义搜索任务中保持近乎相同的性能表现。
- 模型缩小的核心方案是将嵌入矩阵从float32精度量化至int8，这一技术实现未造成可测量的嵌入质量或搜索排序效果下降。
- 新模型保持完全相同的架构设计，张量数量相近（611对比606），输入输出维度完全一致（[1,64]输入和[1,768]输出），表明其源自同一基础模型——很可能是类似BERT的基于Transformer的嵌入架构。
- 尽管内部采用量化处理，新模型输出的嵌入向量仍保持float32完整精度，且有效精度略有提升（25.42比特对比22.59比特），这反映出采用了精密的量化感知训练技术。
- 多样化查询测试显示相似度评分几乎完全一致（差异仅0.001-0.004），多数查询结果排序完全相同，推理速度还略有提升（加快1-2%）。
- 此项优化为Chrome用户带来多重收益：存储占用降低、浏览器更新更快、资源效率提升、质量保持稳定，移动设备端还可能延长电池续航。
- 该方案证明：针对特定模型组件进行选择性量化，比整体量化策略更有效。这种技术路径对浏览器等边缘应用极具价值——在存储效率至关重要的场景下，仍能确保性能不受妥协。
Type-constrained code generation with language models
a year ago
- 大语言模型（LLMs）在代码生成方面取得成功，但由于缺乏形式化代码建模，常产生无法编译的输出
- 约束解码技术曾用于领域特定语言或语法特征，但在通用编程语言中难以处理类型错误
- 本文提出类型约束解码方法，利用类型系统引导代码生成并强制类型正确性
- 开发了新型前缀自动机和可居住类型搜索机制，确保LLM生成代码的类型健全性
- 该方法首先在简单类型语言上形式化，后扩展至TypeScript以增强实用性
- 基于HumanEval和MBPP数据集的评估表明，该方法使编译错误减少超50%，并提升功能正确性
- 该技术在不同规模LLM（包括参数量超300亿的模型）和模型家族中均表现有效
- 研究结果证明了用形式化类型系统规则约束LLM代码生成的普适性与有效性
LithOS: An Operating System for Efficient Machine Learning on GPUs
a year ago
- LithOS被介绍为一款专为GPU高效机器学习设计的操作系统
- 其特色是采用TPC调度器实现单个TPC粒度的空间调度
- 包含透明内核原子化技术以降低队头阻塞
- 提供轻量级硬件规模调整功能，确定每个原子任务的最小TPC资源需求
- 实施透明电源管理机制，根据工作负载动态降低能耗
- LithOS采用Rust语言实现，在GPU效率方面展现出显著提升
- 在推理堆叠场景下，相比NVIDIA的MPS方案将尾延迟降低达13倍
- 相比最先进解决方案，整体吞吐量提升1.6倍
- 通过规模调整技术实现四分之三GPU资源节省，性能损失不足4%
- 借助电源管理达成四分之一GPU能耗节省，性能影响仅7%
AlphaEvolve: A Gemini-powered coding agent for designing advanced algorithms
a year ago
- AlphaEvolve是由Gemini驱动的代码代理，专为发现和优化算法而设计。
- 它结合了Gemini Flash和Gemini Pro等大型语言模型（LLMs）与自动化评估器，以验证和改进算法解决方案。
- AlphaEvolve提升了谷歌数据中心的效率，优化了芯片设计和AI训练流程。
- 它贡献了更快的矩阵乘法算法，并解决了开放数学难题。
- AlphaEvolve采用进化框架改进有潜力的创意，并通过自动化评估指标进行验证。
- 该代理已部署在谷歌计算生态系统中，改善了数据中心调度、硬件设计和AI训练。
- AlphaEvolve发现了一种数据中心调度启发式方法，为谷歌全球计算资源回收了0.7%的利用率。
- 它为即将推出的张量处理单元（TPU）优化了矩阵乘法电路的Verilog重写方案。
- AlphaEvolve将Gemini架构中的矩阵乘法速度提升23%，训练时间缩短1%。
- 在Transformer架构的AI模型中，其FlashAttention内核实现了32.5%的加速。
- AlphaEvolve推动了数学前沿发展，改进了11维空间接吻数问题等数学难题的解决方案。
- 计划推出面向学术用户的抢先体验计划，未来可能扩大适用范围。
- AlphaEvolve的通用性使其可应用于任何算法可解决的问题领域，在材料科学、药物研发和可持续发展方面具有潜力。
DeepMind unveils 'spectacular' general-purpose science AI
a year ago
- 谷歌DeepMind开发了AlphaEvolve系统，将大语言模型（LLMs）与算法相结合，用于解决数学和计算机科学领域的重大问题。
- AlphaEvolve具有实际应用价值，改进了谷歌的张量处理单元设计，并优化了全球计算资源使用，节省了总资源的0.7%。
- 与专用AI工具不同，AlphaEvolve是通用型系统，利用LLMs为不同科学领域生成解决方案。
- 该系统通过评估算法引导，迭代优化LLM提出的修改方案，从而进化出解决方案。
- AlphaEvolve在某些情况下表现优于AlphaTensor等专用工具，发现了更快的矩阵乘法运算方法。
- 该系统基于DeepMind早前的FunSearch进行拓展，能够处理更复杂的算法和更大规模的代码库。
How Cursor and Windsurf Work Under the Hood
a year ago
- 像Cursor和Windsurf这样的AI编程助手采用先进的上下文检索系统来理解整个代码库。
- Cursor将项目索引至向量数据库，重点关注注释和文档字符串，并采用两阶段检索流程确保相关性。
- Windsurf的索引引擎通过扫描代码库构建可搜索地图，利用基于LLM的搜索技术提升自然语言查询解析能力。
- 两款工具都谨慎管理上下文窗口，优先处理相关信息，并运用上下文学习和AI规则等策略。
- Cursor和Windsurf均采用ReAct（推理+行动）模式，支持通过代码搜索、文件编辑和终端命令等多步骤编程操作。
- Cursor使用语义化补丁实现高效代码修改，并在沙盒中运行实验性代码以避免破坏项目。
- Windsurf的Cascade代理支持单流程串联多达20个工具调用，并能实时适应手动代码变更。
- 两个系统都采用多AI模型协同，在质量与速度间取得平衡——Cursor将任务路由至适配模型，Windsurf则提供模型灵活性。
- 实时适应功能包括流式响应、自我修正循环和持续重新索引，确保AI知识保持最新状态。
- Windsurf的事件驱动架构确保编辑器、终端和AI聊天组件间的实时同步，提供无缝体验。
ML-Enhanced Code Completion Improves Developer Productivity (2022)
a year ago
- 谷歌开发了一款结合机器学习与基于规则的语义引擎的混合语义ML代码补全工具
- 该工具使用在谷歌单一代码库上训练的Transformer模型，支持八种编程语言，有效提升开发者生产力
- 单行ML补全功能使上万名谷歌开发者的编码迭代时间缩短6%
- 经ML增强的代码建议目前占谷歌新增代码量的3%
- 语义正确性检查通过过滤不可编译代码，将ML建议的采纳率提升了10%
- ML与语义引擎的集成同时支持单行和多行代码补全功能
- 未来研究方向包括加强ML模型与语义引擎协作，以支持长预测和API探索
Self Rewarding Self Improving: Autonomous LLM Improvement
a year ago
- 大语言模型可以通过自我评判实现自我改进，而无需参考答案。
- 在倒计时谜题和MIT积分蜂问题上的实验表明，模型无需标准答案也能提供可靠的奖励信号。
- 自我评判机制使得在传统困难的领域中实现强化学习成为可能。
- 将自我评判与合成问题生成相结合，可形成完整的自我改进闭环。
- 性能提升包括Qwen 2.5 7B模型比基线提高8%，并在积分任务上超越GPT-4o。
- LLM评判器能提供有效的奖励信号，为强化学习开辟新环境。
- 这一突破可能引发范式转变，推动AI系统通过自主学习实现持续进化。
X X^t can be faster
a year ago
- 一种名为RXTX的新算法被提出，用于计算矩阵与其转置矩阵的乘积(XX^t)。
- 与现有最先进方法相比，RXTX减少了5%的乘法和加法运算量。
- 该算法即使在小规模矩阵情况下也能实现加速效果。
- RXTX是通过结合基于机器学习的搜索方法和组合优化技术发现的。
- 该研究归类于计算机科学>数据结构与算法领域。
The Collapse of GPT
a year ago
- ChatGPT等大型语言模型自2022年11月公开发布以来已被广泛应用。
- 当训练数据与现实世界数据不匹配时会发生模型崩溃，导致模型性能下降。
- 大语言模型从维基百科和Common Crawl等来源学习词汇的统计分布规律。
- 合成数据取代人类生成文本会破坏自然词汇分布，引发模型崩溃。
- 模型崩溃不仅影响语言模型，也波及Dall-E等图像生成类生成模型。
- 对合成数据进行筛选可通过保证训练数据质量来缓解模型崩溃。
- 大语言模型可自我评估输出质量，类似基于人类反馈的强化学习(RLHF)机制。
- 未来挑战包括2026-2032年间可能出现的新训练数据短缺问题。
- 若管理得当，合成数据或能帮助改进模型，避免发展停滞。
- 模型崩溃可能加剧偏见，抹杀数据中对少数群体的表征。
- 大模型训练动态和检查点缺乏透明度，阻碍了关于多样性影响的研究。
- 模型崩溃是重大隐患但非迫在眉睫的灾难，需要科技公司提高警惕。
GitHub Models API now available
a year ago
- GitHub模型REST API现已支持通过编程方式调用
- 接口功能包含模型列表查询及聊天补全任务执行
- 支持流式传输、非流式传输及温度参数、随机种子等高级选项
- 推理请求可关联至GitHub组织进行溯源
- 官方文档与社区讨论区可获取详细使用指南
Transformer neural net learns to run Conway's Game of Life just from examples
a year ago
- 一个简化版的Transformer神经网络——SingleAttentionNet，能够通过示例完美学习并计算康威生命游戏。
- 该模型利用注意力机制执行3x3卷积操作，这对统计生命游戏中细胞邻居数量至关重要。
- 训练过程通过最小化随机生成的生命网格在预测状态与真实下一状态之间的交叉熵损失来实现。
- 模型可泛化至最大16x16的网格规模，训练时间从几分钟到失败不等，具体取决于超参数设置。
- 若将注意力层替换为手动计算的邻居注意力矩阵或3x3平均池化层，可加速学习并提升泛化能力。
- 当模型在1024个训练批次上实现完美预测，并能成功运行100次生命游戏（每次100步）时，即判定收敛。
- 生命游戏规则基于细胞邻居数量：3个邻居时存活，2个邻居时保持状态，其余情况细胞死亡。
The Climate Modeling Alliance
a year ago
- CliMA的使命是提供准确且可操作的科学信息，以帮助减缓和适应气候变化。
- 该联盟成员包括来自加州理工学院、麻省理工学院和美国宇航局喷气推进实验室的科学家、工程师和数学家。
- 他们正在构建一个新型地球系统模型，利用计算与数据科学从地球观测中学习。
- 该模型旨在以前所未有的精度改进对干旱、热浪和极端降雨的预测。
- CliMA正在开发首个通过机器学习自动从多元数据源学习的地球系统模型。
- 该建模平台具有可扩展性，专为持续发展设计，可在超级计算机和云端运行。
- CliMA致力于开放科学，其平台开源且研究成果向公众开放。
- 该平台将支持前端应用程序，用于洪水风险、极端高温、作物产量等详细模型。
- 资金由私人基金会和联邦机构提供，由埃里克和温迪·施密特夫妇及美国国家科学基金会主导。
Llama from scratch (or how to implement a paper without crying)
a year ago
- 文章提供了一个指南，介绍如何基于Karpathy的Makemore系列教程，实现一个简化版的Llama模型，用于在TinyShakespeare数据集上进行训练。
- 关键要点包括迭代式工作流程、从小规模开始逐步扩展，并重点测试各网络层是否按预期运行。
- 该实现针对原始Transformer架构进行了三项改进：采用RMSNorm进行预归一化、使用旋转位置编码（Rotary embeddings）以及SwiGLU激活函数。
- 详细步骤涵盖数据集准备、创建模型评估辅助函数，以及逐步添加注意力机制和归一化层等组件。
- 文章强调了调试的重要性，包括检查梯度流动情况以及通过超参数实验来优化模型性能。
- 最终模型在测试集上评估显示损失指标，并总结出『从简单开始』和迭代式开发价值的重要经验。
Text Embeddings are All Alike
a year ago
- 提出了一种无监督方法，用于在不同向量空间之间转换文本嵌入，无需配对数据或预定义的匹配。
- 提出了一种通用的潜在嵌入表示，与柏拉图表示假说相一致。
- 在多样化的模型架构和训练数据集上实现了较高的余弦相似度。
- 强调了向量数据库的安全隐患，因为攻击者可以从嵌入中推断出敏感信息。
How we made our optical character recognition (OCR) code more accurate
a year ago
- OCR技术将图像中的印刷体或手写字符转换为机器可读文本
- Pieces通过添加预处理和后处理步骤增强了Tesseract OCR的代码识别能力
- 预处理包括处理暗黑模式图像、噪点背景和低分辨率图像
- 后处理利用Tesseract的边界框推断代码缩进结构
- 评估采用数据集和Levenshtein距离比较预测文本与标准答案
- 选择双三次上采样而非超分辨率模型以获得更高效率
- Pieces提供专为代码优化的OCR模型，已集成至桌面应用程序
Zoo Design Studio v1: A New Stack for Mechanical CAD
a year ago
- Zoo Design Studio v1版本推出全新几何引擎专为机械CAD设计，满足实时机器学习工作流和GPU加速等现代需求。
- 核心特性包含GPU加速的曲面/曲面求交算法(SSI)、保留可编辑B-rep曲面的ML集成功能，以及支持代码驱动CAD的KittyCAD语言(KCL)。
- 该应用采用B-rep实体建模而非网格模型以实现精密工程，支持导出STEP、glTF和STL等格式。
- v1版本内置基本体素、草图约束、装配体功能，免费层用户每月可获得40次文本转CAD额度。
- 未来规划包含约束系统2.0、引擎端缓存、对话式CAD Copilot助手及性能强化。
- Zoo Design Studio支持macOS/Windows/Linux及网页端，专业版推出期间享有特别折扣。

About|Login

#machine learning

FastVLM: Dramatically Faster Vision Language Model from Apple

TransMLA: Multi-head latent attention is all you need

Backslash: Rate Constrained Optimized Training of Large Language Models

Chrome's New Embedding Model: Smaller, Faster, Same Quality

Type-constrained code generation with language models

LithOS: An Operating System for Efficient Machine Learning on GPUs

AlphaEvolve: A Gemini-powered coding agent for designing advanced algorithms

DeepMind unveils 'spectacular' general-purpose science AI

How Cursor and Windsurf Work Under the Hood

ML-Enhanced Code Completion Improves Developer Productivity (2022)

Self Rewarding Self Improving: Autonomous LLM Improvement

X X^t can be faster

The Collapse of GPT

GitHub Models API now available

Transformer neural net learns to run Conway's Game of Life just from examples

The Climate Modeling Alliance

Llama from scratch (or how to implement a paper without crying)

Text Embeddings are All Alike

How we made our optical character recognition (OCR) code more accurate

Zoo Design Studio v1: A New Stack for Mechanical CAD