Hasty Briefsbeta

全部标签

#machine learning

共 485 篇

双语

New AI architecture is 100x faster in reasoning with just 1k training examples
10 months ago
- 新加坡人工智能初创公司Sapient Intelligence开发的层级推理模型（HRM）是一种新型AI架构，在复杂推理任务中表现优于大语言模型（LLM），同时具有更小规模和更高数据效率。
- HRM灵感源自人类大脑运用不同系统处理慢速缜密规划与快速直觉计算的机制，相比LLM能以更少数据和内存实现惊艳效果。
- 当前LLM依赖的思维链（CoT）提示法存在脆弱性、高数据需求等局限，常导致响应迟缓冗长。
- HRM采用'潜在推理'机制，无需显性语言生成即可内部推演，类似人类思维模式，有效规避梯度消失和早熟收敛等问题。
- HRM由两个耦合模块组成：负责抽象规划的高层（H）模块与执行快速计算的底层（L）模块，无需海量数据即可实现深度推理。
- 在ARC-AGI、极限数独和困难迷宫等基准测试中，HRM以极少训练数据实现近完美准确率，全面超越最先进的CoT模型。
- HRM的高效能显著降低成本并提升速度，特别适合机器人等延迟敏感领域及科研探索等数据稀缺场景。
- Sapient Intelligence正将HRM发展为通用推理模块，在医疗健康、气候预测和机器人等领域展现出广阔应用前景。
Sapients paper on the concept of Hierarchical Reasoning Model
10 months ago
- 当前大型语言模型（LLMs）主要采用思维链（CoT）技术，但存在任务分解脆弱、数据需求高、延迟明显等局限性。
- 分层推理模型（HRM）作为一种新型循环架构被提出，其灵感来源于人脑的分层多时间尺度信息处理机制。
- HRM由两个相互依存的循环模块组成：高层模块负责缓慢的抽象规划，底层模块处理快速的细节计算。
- 仅需2700万参数和1000个训练样本，HRM无需预训练或CoT数据即可在复杂推理任务中表现卓越。
- HRM在数独难题求解、大型迷宫最优路径寻找等高难度任务中近乎完美表现。
- 在人工通用智能关键测试ARC（抽象推理语料库）上，HRM以更短上下文窗口超越参数量更大的模型。
- HRM的成果标志着向通用计算和通用推理系统迈出了突破性的一步。
Moneyballing individual pitches with a Support Vector Machine
10 months ago
- 支持向量机(SVM)简介及其在二分类问题中的应用
- 硬间隔SVM原理解析与类别间最大间隔概念
- SVM超平面的数学表达与优化问题建模
- 针对非线性可分数据的软间隔SVM引入
- 基于梯度下降和NumPy的SVM实现方法
- SVM在棒球数据集上的应用——投球特征分析
- LinearSVC与RBF核SVC模型性能对比
- 投球位移与位置可视化对挥空预测的影响
- 从棒球数据分析中获得的SVM应用启示
GLM-4.5: Reasoning, Coding, and Agentic Abililties
10 months ago
- 介绍GLM家族最新旗舰模型GLM-4.5和GLM-4.5-Air
- GLM-4.5总参数量3550亿（活跃参数320亿），GLM-4.5-Air总参数量1060亿（活跃参数120亿）
- 两款模型统一整合推理、编程和智能体能力，满足复杂应用需求
- 混合推理模式：思维模式（复杂推理）与非思维模式（即时响应）
- 已登陆Z.ai平台、Z.ai API接口，并在HuggingFace和ModelScope开源权重
- 在12项基准测试中与OpenAI、Anthropic、Google DeepMind等模型对比
- GLM-4.5综合排名第三，在智能体任务、推理和编程领域表现突出
- 智能体任务：128k上下文长度、原生函数调用能力，TAU-bench和BFCL-v3等基准测试表现优异
- 网页浏览性能：超越Claude-4-Opus，接近o4-mini-high水平
- 推理基准：在MMLU Pro、AIME24、MATH 500和GPQA测试中展现强劲实力
- 编程基准：SWE-bench Verified和Terminal Bench成绩优异，工具调用成功率高达90.6%
- 全栈开发能力：涵盖前端、后端及数据库管理
- 模型架构：采用无损平衡路由的MoE、Sigmoid门控及分组查询注意力机制
- 训练阶段：15000亿通用token预训练+7000亿代码推理token训练，后续进行领域微调
- 强化学习基础设施'slime'实现高效可扩展训练
- 训练后优化：监督微调+针对推理与智能体任务的专项强化学习
Google Colab Terminal Is Now Free for All Users
10 months ago
- Google Colab 现在向所有用户免费提供终端访问权限。
- 点击任意Colab笔记本左下方的"Terminal"按钮即可找到终端访问功能。
- 用户可以使用apt-get等包管理器安装自定义库和工具。
- 支持标准Linux命令（如ls、cd、mkdir等）进行文件和目录管理。
- 可以执行Shell脚本实现自动化操作和复杂任务处理。
- 用户可以检查虚拟机环境，并与Git进行交互实现版本控制。
My 2.5 year old laptop can write Space Invaders in JavaScript now (GLM-4.5 Air)
10 months ago
- Z.ai推出的开源新模型GLM-4.5 Air在编程任务中表现优异
- GLM-4.5 Air的3bit量化版本（44GB）成功在一台使用2.5年的64GB内存M2芯片MacBook Pro上运行
- 该模型无需修改即可生成可运行的HTML+JavaScript《太空侵略者》游戏
- 运行该模型需要mlx-lm库的最新主分支版本，内存消耗约48GB
- 包括GLM-4.5 Air、Mistral 3.2 Small和Gemma 3在内的最新模型均展现出显著的编程能力提升
Supervised Fine Tuning on Curated Data Is Reinforcement Learning
10 months ago
- 行为克隆（BC）在精选数据上是大型语言模型监督微调（SFT）和模仿学习的主要方法。
- SFT可视为在稀疏奖励设置中对强化学习（RL）目标函数下界的最大化。
- 改进版SFT（称为重要性加权监督微调iw-SFT）通过优化更紧致的RL目标边界来提升性能。
- iw-SFT易于实现，并可推广至带质量评分数据的训练场景。
- 这些SFT变体在大型语言模型和连续控制任务中与先进RL算法表现相当，在AIME 2024数据集上达到66.7%的准确率。
Train a Reasoning LLM in a Weekend
10 months ago
- 英伟达提供工具和数据集，可在单块GPU上约48小时内训练小型推理模型。
- Llama Nemotron系列开源模型专为跨任务高性能推理设计。
- 该模型具备动态推理切换功能，可在标准聊天模式与高级推理模式间自由转换。
- 英伟达开源了包含数学、编程、科学等领域超3200万样本的Llama Nemotron训练后数据集。
- 训练流程包含数据筛选、微调与评估，其中监督微调(SFT)能获得最佳效果。
- 数据集按SFT或强化学习需求分类，附带详细元数据与样本属性说明。
- 推荐采用LoRA适配器进行参数高效微调，适用于80亿参数以上的模型。
- 评估显示相比基础模型有显著提升，在GPQA和MMLU等基准测试中最高获得10分性能增益。
- 该方案具备扩展性，通过增加训练样本与时间可进一步提升效果。
A major AI training data set contains millions of examples of personal data
10 months ago
- 主要AI训练数据集DataComp CommonPool包含数百万个人数据样本，包括护照、信用卡和出生证明。
- 研究人员基于0.1%的抽样审计估计，该数据集中存在数亿张包含个人身份信息（PII）的图像。
- 数据集包含敏感信息，如残疾状况、背景调查以及关联真实人物的简历中的家庭住址。
- 拥有128亿样本的DataComp CommonPool被用于训练生成式AI模型，下载量已超200万次。
- 人脸模糊等隐私保护措施被证实无效，算法漏处理了数百万张人脸。
- 网络爬取行为引发伦理争议，个人无法对其数据被用于AI训练表示同意。
- 儿童个人信息同样出现在该数据集中，这些数据最初仅限特定用途共享。
- 现行隐私法（如GDPR和CCPA）可能无法全面防止公开数据在AI训练集中的滥用。
- 该研究呼吁重新评估无差别网络爬取行为，并指出现有隐私保护措施的局限性。
Hierarchical Reasoning Model – 1k training samples SoTA reasoning v/s CoT
10 months ago
- 层次推理模型(HRM)作为一种新型循环架构被引入，专门用于AI推理任务。
- HRM通过两个相互依赖的模块运行：高层模块负责抽象规划，底层模块处理细节计算。
- 仅用2700万参数，HRM在极少量训练数据(1000个样本)下就能在复杂推理任务中取得卓越表现。
- 在衡量通用人工智能的基准测试ARC(抽象与推理语料库)中，HRM的表现超越了参数量更大的模型。
- 安装需要PyTorch、CUDA以及FlashAttention等额外软件包以确保GPU兼容性。
- 训练涉及数独、ARC和迷宫求解任务的数据集，针对不同GPU配置提供具体命令。
- 评估包括在Weights & Biases平台检查精确准确率，并使用提供的Jupyter笔记本进行详细分析。
- 该模型记录于关望等人2025年发表在arXiv的论文《层次推理模型》中。
Releasing open weights for FLUX.1 Krea
10 months ago
- FLUX.1 Krea [开发版]发布，这是Krea 1的开源版本，旨在提供更优的审美控制和图像质量。
- FLUX.1 Krea专注于独特美学风格，以避免生成图像中常见的'AI感'。
- 探讨当前审美评估模型的局限性及其固有偏见。
- 训练方法分为预训练（模式覆盖和世界理解）和后训练（针对审美的模式聚焦）。
- 使用Black Forest Labs提供的原始基础模型flux-dev-raw进行后训练。
- 后训练流程包括监督微调(SFT)和基于人类反馈的强化学习(RLHF)。
- 关键发现：数据质量优于数量，审美导向的方法至关重要。
- 未来研究方向包括个性化、美学和可控性探索。
- 感谢Black Forest Labs及内部团队的贡献。
PHP-ORT: Machine Learning Inference for the Web
10 months ago
- 软件和机器学习正在快速发展，使得ML成为所有数字交互的核心要素
- PHP开发者面临在AI优先的世界中保持相关性的挑战，这关乎他们的职业发展和生计保障
- PHP以78%的使用率主导网络开发，但缺乏一流的ML支持，迫使开发者使用低效的变通方案
- PHP-ORT为PHP带来生产级ML推理能力，让开发者能轻松构建智能应用程序
- PHP-ORT特性包括张量API、高性能数学库、ONNX集成和SIMD加速支持
- 该解决方案旨在让PHP(推理)与Python(训练)互补而非替代
- 核心创新包括不可变张量、双存储类张量及优化的内存管理机制
- PHP-ORT已具备生产就绪性，经过严格工程验证、性能基准测试并提供简易安装
- 该项目回应了关于PHP是否适合ML的质疑，强调生态发展和基础设施构建
- 目标是让PHP开发者普及ML技术，推动创新并确保PHP在AI时代保持竞争力
Show HN: Implementation of DDPM (Denoising Diffusion Probabilistic Models)
10 months ago
- DDPM（去噪扩散概率模型）论文的极简实现。
- 由alenMangattu创建的名为'DDPM-Denoising-Diffusion-Probabilistic-Models'的代码库。
- 该代码库未提供描述、网站或主题信息。
- 尚未发布任何版本或软件包。
- 该代码库目前获得0星标、0关注者和0复刻。
DeepSeek won the best paper award at ACL 2025
10 months ago
- NSA（原生稀疏注意力）被引入用于语言模型中的高效长上下文建模。
- 它结合了动态分层稀疏策略与硬件对齐优化，以实现速度和效率的提升。
- 关键创新包括算术强度平衡的算法设计和端到端的可训练性。
- 在各种基准测试和任务中，NSA保持或超越了全注意力模型的性能表现。
- 在64k长度序列的解码和传播阶段，相比全注意力模型实现了显著加速。
How to Make Almost Anything Course at MIT (TA Perspective)
9 months ago
- D. Sculley领导着谷歌剑桥分部的多个机器学习研究团队
- 他的项目涉及设计与制造领域的机器学习应用，包括生物和化学方向
- 他对探索制造领域的跨学科机遇充满兴趣
- D. Sculley自2003年起便深耕机器学习领域
- 转行机器学习前，他曾担任教师职务，本科主修艺术专业
- 他将每周推进课程项目，并乐于探讨机器学习相关话题
Show HN: My Bytecode Optimizer Beats Copilot by 2X
10 months ago
- 专用工具SuperVM在优化字节码和机器代码方面表现优于GPT4o和Sonnet等通用模型
- SuperVM采用确定性系统和形式化证明进行优化，不同于依赖统计系统的LLM
- 在简单分形生成器实验中，SuperVM达到99.8帧/秒，显著高于GPT4o（49.3帧/秒）和Sonnet（39帧/秒）
- SuperVM能在数秒内完成代码编译，而Copilots需要数分钟
- SuperVM的优化手段包括证明循环无副作用，并通过顺序保留队列实现并行化
- 实验表明LLM（代码生成）与SuperVM等专用工具（代码优化）具有互补优势
- 未来计划包括在通用基准测试和推理服务优化方面验证SuperVM
The Loop Is Back: Why HRM Is the Most Exciting AI Architecture in Years
9 months ago
- 文章讨论了分层推理模型(HRM)——一种结合RNN和Transformer优势的新型AI架构，专为深度推理设计。
- HRM采用类似公司的层级结构：CEO(高层模块)负责战略规划，Worker(底层模块)执行具体任务，两者以不同时间尺度运作实现战略与战术推理。
- CEO制定宏观策略，Worker处理细节任务，这种分工支持迭代式、结构化的问题解决流程。
- 通过分层循环架构，HRM既规避了RNN的梯度消失问题，又克服了Transformer的浅层推理局限。
- 模型采用自适应计算时间(ACT)机制动态决定推理终止时机，实现计算效率优化。
- HRM在数独求解、迷宫导航、ARC-AGI抽象推理等需要深度结构化推理的任务中表现卓越。
- 文章展望了HRM与大型语言模型(LLM)协作的未来，通过结合深度推理与广谱知识构建更强大的AI系统。
Pre-Training Large Memory Language Models with Internal and External Knowledge
9 months ago
- 提出大型记忆语言模型（LMLM），将知识同时存储于内部权重和外部数据库
- 通过策略性遮蔽外部检索事实，鼓励针对性查询而非机械记忆
- 在保持与更大模型竞争性能的同时，提供可编辑可验证的知识库
- 标志着语言模型管理事实知识方式的范式转变
Claude Opus 4.1
9 months ago
- Claude Opus 4.1作为Claude Opus 4的升级版本发布，重点提升了代理任务、现实世界编程和推理能力。
- 该模型现已面向付费Claude用户开放，可在Claude Code及Amazon Bedrock、Google Cloud Vertex AI等API平台使用，定价与Opus 4保持一致。
- Opus 4.1在SWE-bench Verified测试中获得74.5%的分数，编码性能显著提升，尤其擅长多文件代码重构和调试任务。
- 主要改进包括：细节追踪能力增强、代理搜索优化、代码修正精度提高（避免不必要的调整或引入错误）。
- 官方建议Opus 4用户升级至4.1版本，开发者需通过API调用「claude-opus-4-1-20250805」模型标识符。
- 鼓励用户提交反馈以优化后续模型开发，未来数周内预计将有更大改进。
- 基准测试结果存在差异：SWE-bench Verified等测试未启用扩展思考模式，而TAU-bench、GPQA Diamond等测试启用了该模式。
- 文档详细说明了TAU-bench和SWE-bench等基准的测试方法，特别标注了工具链和思维模式的变化。
Skynet: LLMs controlling real robots and drones with Bash
9 months ago
- 作者一直在尝试用机器学习控制物理设备。
- Philippe Charrière开发了Osprey——一个轻量级Bash库，用于与LLMs交互。
- Skynet是一个CLI工具，通过Bash让LLMs控制机器人和无人机。
- Skynet可通过Docker Model Runner或Ollama本地运行，也能使用远程服务。
- 模型上下文协议(MCP)标准化了语言模型与外部系统的交互方式。
- MCP服务器会暴露模型可调用的工具来执行操作。
- Skynet是使用curl、jq和awk等工具与LLMs及MCP服务器交互的Bash脚本。
- 应用案例包括通过蓝牙控制Parrot Minidrone和Wowwee MiP机器人。
- 针对MiP和Minidrone等设备的MCP服务器是用Go语言通过mcp-go编写的。
- 作者邀请大家参加纽约Gophercon大会的硬件黑客松环节。

About|Login

#machine learning

New AI architecture is 100x faster in reasoning with just 1k training examples

Sapients paper on the concept of Hierarchical Reasoning Model

Moneyballing individual pitches with a Support Vector Machine

GLM-4.5: Reasoning, Coding, and Agentic Abililties

Google Colab Terminal Is Now Free for All Users

My 2.5 year old laptop can write Space Invaders in JavaScript now (GLM-4.5 Air)

Supervised Fine Tuning on Curated Data Is Reinforcement Learning

Train a Reasoning LLM in a Weekend

A major AI training data set contains millions of examples of personal data

Hierarchical Reasoning Model – 1k training samples SoTA reasoning v/s CoT

Releasing open weights for FLUX.1 Krea

PHP-ORT: Machine Learning Inference for the Web

Show HN: Implementation of DDPM (Denoising Diffusion Probabilistic Models)

DeepSeek won the best paper award at ACL 2025

How to Make Almost Anything Course at MIT (TA Perspective)

Show HN: My Bytecode Optimizer Beats Copilot by 2X

The Loop Is Back: Why HRM Is the Most Exciting AI Architecture in Years

Pre-Training Large Memory Language Models with Internal and External Knowledge

Claude Opus 4.1

Skynet: LLMs controlling real robots and drones with Bash