Hasty Briefsbeta

全部标签

#machine learning

共 485 篇

双语

What Drives Success in Physical Planning with JEPA World Models?
4 months ago
- 研究联合嵌入预测世界模型（JEPA-WMs）在物理规划中的成功因素
- 比较输入空间与学习表示空间的规划效率
- 提出模型架构、训练目标和规划算法的综合研究
- 在仿真和真实机器人任务中测试模型，性能超越DINO-WM和V-JEPA-2-AC等基线方法
- 提供可复现的代码、数据和模型检查点
The Lottery Ticket Hypothesis: finding sparse trainable NNs with 90% less params
4 months ago
- 神经网络剪枝可以减少90%以上的参数数量而不影响准确率。
- 被剪枝的网络难以从头训练，这限制了训练性能的提升。
- '彩票假说'认为密集网络中存在子网络（'中奖彩票'），当被单独训练时效果显著。
- 中奖彩票具有特殊的初始权重，使得训练效果尤为突出。
- 一种算法可以识别出中奖彩票，其规模仅为原网络的10-20%。
- 中奖彩票比原始网络学习更快，并能达到更高的测试准确率。
OpenAI Board Member Zico Kolter's Modern AI Course
4 months ago
- 现代人工智能系统导论，重点讲解机器学习与大语言模型（LLMs）
- 课程涵盖监督式机器学习、大语言模型及训练后优化，从零实现AI聊天机器人
- 包含编程作业：构建精简版AI聊天机器人，并提供中间阶段解决方案
- 作业由编程实践与书面报告组成，另设闭卷随堂测验
- 安排三次线下考试：两次期中测试与一次期末综合考试
- 提供暂定课程表，课后两周内在线发布教学资料
- 允许使用AI助手完成作业，但为强化学习效果不鼓励直接提交AI生成结果
- 教学政策倡导独立完成作业以深化理解，提升考试成绩
DatBench: Discriminative, faithful, and efficient VLM evaluations
4 months ago
- 实证评估对于指导基础模型（包括视觉语言模型VLM）的研究至关重要
- 当前VLM评估常存在忠实性（反映真实使用场景）和区分性（辨别模型质量）的不足
- 关键问题包括：多项选择形式助长猜测（某些评估中高达70%可盲目作答）、错误标注/模糊样本（最高占比42%）
- 评估效率问题突出，近20%的开发算力被用于评估环节
- 提出的解决方案包括：将选择题转为生成式任务（暴露出最高35%的能力下降）、过滤问题样本
- 新推出的DatBench-Full和DatBench作为净化版评估套件，其中DatBench在保持区分力的同时实现13倍平均加速
Hierarchical Autoregressive Modeling for Memory-Efficient Language Generation
4 months ago
- PHOTON提出了一种分层自回归模型，用于实现高效语言生成。
- 它用垂直、多分辨率上下文访问取代了扁平化的令牌扫描机制。
- PHOTON通过维护潜在表征的层级结构获得更优性能。
- 实验结果表明，在吞吐量与生成质量的权衡上，PHOTON优于基于Transformer的模型。
- PHOTON能减少键值缓存流量，使单位内存吞吐量最高提升1000倍。
LMArena is a cancer on AI
4 months ago
- 热门AI模型在线排行榜LMArena因追求表面质量而非准确性而受到批评
- 该评分体系奖励冗长、格式精美、视觉吸引力的回答，即使这些回答事实错误
- 分析显示LMArena上52%的投票结果存在争议，表明用户更青睐自信表达和美观性而非事实准确性
- 结构性问题包括依赖无报酬、不受控的志愿者群体，缺乏质量控制与深度评估的激励机制
- AI行业过度关注LMArena缺陷指标，可能导致模型为迎合幻觉和格式优化，而非追求真实可靠
- 文章呼吁转向更严谨的评估体系，优先考量准确性且不易被钻空子
- 模型开发者面临抉择：追逐短期排行榜成功，还是坚守长期质量与原则
Distinct AI Models Seem to Converge on How They Encode Reality
4 months ago
- 尽管训练数据或类型不同，AI模型仍会发展出相似的表示形式
- 柏拉图式表示假说认为AI模型会收敛于对世界的共享表征
- 通过高维空间中的几何向量来比较AI模型的内部表示
- 更强大的AI模型在其内部表征上展现出更高的相似性
- 关于AI模型是真正收敛还是存在更显著差异的争论持续存在
- 研究探索共享表征的潜在应用，例如模型间的相互转换
- 部分研究者认为AI模型的复杂性难以用简单的统一理论来解释
Tamarind Bio (YC W24) Is Hiring Infrastructure Engineers
4 months ago
- 寻找基础架构工程师来扩展机器学习推理系统。
- 负责构建和维护为150多个生物ML模型提供服务的基础设施。
- 与创始人密切合作，根据客户需求、不可预测的工作负载和独特的生物ML模型进行设计。
- 使用Kubernetes等工具编排容器化工作负载，确保高可用性。
- 在快节奏的初创环境中茁壮成长，身兼多职，解决新颖的技术挑战。
- 让科学家通过简单界面使用AI驱动的药物发现工具。
- 数千名来自制药、生物技术和学术界的科学家使用Tamarind进行蛋白质设计和分子创造。
- 在计算药物发现领域，AI模型正在超越基于物理学的工具。
Dynamic Large Concept Models: Latent Reasoning in an Adaptive Semantic Space
4 months ago
- 提出动态大概念模型（DLCM），一种将计算从词元转移到压缩概念空间的分层语言建模框架
- DLCM端到端发现可变长度概念，无需预定义语言单元，提升推理效率
- 首次提出压缩感知的缩放定律，实现固定FLOPs下的理论计算资源分配
- 开发解耦的μP参数化方法，确保不同宽度和压缩机制下的训练稳定性
- 在匹配推理FLOPs条件下，12个零样本基准任务平均提升+2.69%
GLM-4.7: Frontier intelligence at record speed – now available on Cerebras
4 months ago
- GLM-4.7是Z.ai推出的最新模型，现已在Cerebras推理云平台上线，集速度与智能于一体，专为代码生成、工具驱动型智能体和多轮推理场景优化。
- 在SWEbench、τ²bench和LiveCodeBench等开发者基准测试中，GLM-4.7性能超越GLM-4.6，并领先于DeepSeek-V3.2等开源权重模型。
- 代码能力提升包括：解决方案更精准、代码结构更清晰、多语言输出更流畅、对项目上下文理解更深入。
- 工具驱动型智能体工作流获得增强，体现在多步骤交互中更优的任务规划、工具调用能力和上下文保持。
- 推理能力突破包含：交错思考（每次行动前进行逻辑推演）和持续思考（推理上下文在多轮对话中保持）。
- GLM-4.7在Cerebras硬件上实现实时响应，每秒可生成1,700个token，满足延迟敏感型应用需求。
- 性价比达到Claude Sonnet 4.5的10倍，在保持与主流闭源模型相当智能水平的同时，生成速度更快。
- 完全兼容GLM-4.6工作流，仅需更新模型名称即可迁移。
- Cerebras云平台现已开放按需付费的开发者套餐（起价10美元/月），提供宽松的速率限制以支持原型开发与规模扩展。
Clearspace (YC W23) Is Hiring an Applied Researcher (ML)
4 months ago
- Clearspace正在构建互联网的意图层，以保护人类的注意力。
- 他们的使命是抵制社交媒体平台那些剥削注意力的策略。
- Clearspace已被Huberman Lab、纽约时报Wirecutter和福布斯等知名媒体报道。
- 他们正在开发一种基于自然语言规则的网络流量过滤代理，以减少强迫性手机使用。
- 寻找一位专注于机器学习的工程师来改进网络流量分类模型。
- 工作职责包括增强数据量、智能特征化以及推理需求分析。
- 任职资格强调在数据领域解决问题的能力，并对AI/ML技术进步充满热情。
- 加分项：有构建注意力保护技术的经验。
- Clearspace旨在开发精密技术，保护注意力免受现代科技剥削手段的影响。
Counterfactual evaluation for recommendation systems
4 months ago
- 推荐系统的离线评估将其视为观测性问题，而实际上它们是干预性问题。
- 传统指标如召回率、精确率和NDCG评估的是推荐与日志数据的匹配程度，而非对用户行为的实际影响。
- A/B测试是直接但资源密集的方法，用于将推荐作为干预性问题进行评估。
- 反事实评估，特别是逆倾向评分（IPS），无需实际运行即可估计潜在A/B测试的结果。
- IPS根据新模型与旧模型推荐物品的频率差异，对记录的奖励进行重新加权。
- IPS面临的挑战包括支持不足（零概率推荐）和因推荐概率差异大导致的高方差。
- 裁剪IPS（CIPS）和自归一化IPS（SNIPS）是解决IPS高方差的方法，实验表明SNIPS表现最佳。
- SNIPS需要计算所有观测的重要性权重，增加了存储和计算负担，但能实现更快的收敛。
- 尽管存在局限，观测性评估因其成熟框架和数据收集便利性仍有实用价值。
- 当离线指标与在线A/B测试结果出现分歧，或需离线模拟A/B测试时，推荐采用基于SNIPS的反事实评估。
KerasHub: a pretrained modeling library
4 months ago
- KerasHub是一个简单、灵活且快速的预训练模型库
- 提供Keras 3实现的流行模型架构，并附带Kaggle Models上的预训练检查点
- 模型可在TensorFlow、Jax和Torch后端上用于训练和推理
- KerasHub扩展了核心Keras API，以keras.layers.Layer和keras.Model形式提供组件
- 安装方式：稳定版`pip install --upgrade keras-hub` 或每日构建版`pip install --upgrade keras-hub-nightly`
- 当前安装会同时获取TensorFlow以使用tf.data API预处理，但训练可在任意后端运行
- 使用示例包括加载ResNet模型进行图像分类，或BERT模型微调IMDb影评
- 遵循语义化版本控制，但在0.y.z预发布阶段可能破坏兼容性
- 预训练模型按『原样』提供，不附带任何担保
- 学术引用请参考官方说明
How scientists are using Claude to accelerate research and discovery
4 months ago
- Claude生命科学版于10月推出，旨在加强科研协作
- Opus 4.5在图表解读、计算生物学和蛋白质理解方面展现显著提升
- AI for Science计划为高影响力研究项目提供免费API额度
- Claude可辅助研究全流程，从实验设计到数据分析
- Biomni整合数百种生物医学工具，构建由Claude驱动的统一系统
- Biomni将全基因组关联分析(GWAS)耗时从数月缩短至20分钟
- Cheeseman实验室运用Claude自动化解读基因敲除实验结果
- 由Claude驱动的MozzareLLM系统加速基因簇分析与发现
- Lundberg实验室利用Claude生成待研究基因的假设
- Claude持续进化的能力正不断提升科研效率与发现速度
Starting from scratch: Training a 30M Topological Transformer
4 months ago
- Tauformer是一种拓扑变换器，用拉普拉斯派生的标量（taumode）替代了点积注意力机制，每个token/head独立计算。
- Tauformer通过拉普拉斯派生taumode标量的相似性对键进行排序，使注意力偏向领域相关的关系。
- 实现保留了Q/K/V投影、RoPE、因果掩码和softmax/值聚合，但改变了注意力对数计算方式。
- Taumode标量通过有界瑞利商能量计算，产生λ∈[0,1)区间值。
- KV缓存存储(V, λₖ)而非(K, V)，缓存大小减少约50%。
- 正在训练3000万参数的TauGPT模型，使用AdamW优化器，基础学习率5e-4，100步热身阶段。
- 验证损失从第100步的4.9255降至第4500步的1.9146，最终困惑度为6.59。
- Taumode收敛与交叉熵损失相关，可能表明键表示更平滑。
- 未来工作包括自适应taumode策略和扩展到1亿参数规模。
- Tauformer的确定性压缩可能增加可学习结构，符合epiplexity原理。
Ultrathink is deprecated & How to enable 2x thinking tokens in Claude Code
4 months ago
- 此前能解锁Claude最高推理能力的'ultrathink'关键词现已弃用
- 扩展思维功能现已自动启用，在支持的模型上默认提供31,999个token的思考预算
- 通过设置'MAX_THINKING_TOKENS=63999'的隐藏技巧，可在64K输出模型上获得63,999个思考token
- 扩展思维对系统设计、性能优化等复杂任务有益，但对简单任务可能非必要
- 用户可通过设置'MAX_THINKING_TOKENS=0'或配置'alwaysThinkingEnabled: false'来禁用扩展思维
- 思考token通过允许中间推理步骤来扩展transformer的计算能力
- 研究表明，在某些场景下，测试时计算（思考token）的表现可以超越模型缩放
- OpenAI、Anthropic和Gemini等主流AI实验室已将该技术集成至旗舰模型
- 使用更多思考token的代价包括延迟增加、成本上升，且在简单任务上存在收益递减
GLM-4.7-Flash
4 months ago
- 加入GLM-4.7 Discord社区
- 通过Z.ai API平台使用GLM-4.7-Flash API服务
- GLM-4.7-Flash是30B级别轻量化部署的顶尖模型
- 基准测试显示GLM-4.7-Flash各项指标超越竞品
- 支持通过vLLM和SGLang框架进行本地部署
- 提供vLLM和SGLang的安装使用指南
- 可引用GLM-4.5研究论文
DeepSeek kicked off 2026 with a new AI training method for scaling
4 months ago
- 中国深度求索公司推出名为'流形约束超连接'(mHC)的新AI训练方法，可更高效扩展模型规模
- 该方法使模型在保持稳定性和计算效率的同时，能进行更丰富的内部信息交互
- 分析人士称这项技术是'惊人突破'，可能对AI产业产生重大影响
- 深度求索的研究展现了其快速实验能力和非传统研究理念
- 据报道，该公司因性能问题和芯片短缺延迟后，正研发新一代旗舰模型R2
- 深度求索前代模型R1虽以更低成本达到ChatGPT-o1等竞品水平，但市场普及度不足
- 该研究的开放性折射出中国AI产业日益增强的自信
Batmobile: 10-20x Faster CUDA Kernels for Equivariant Graph Neural Networks
4 months ago
- Batmobile通过定制CUDA内核加速等变图神经网络（如MACE、NequIP和Allegro）中的球谐函数和张量积运算
- 等变图神经网络遵循物理对称性（旋转/平移/反射）但计算成本高昂，导致实际应用受限
- 球谐函数编码3D方向信息，张量积则在保持等变性的前提下融合特征
- 标准库e3nn因Python/PyTorch开销、内存带宽浪费、缺乏算子融合和动态形状导致性能低下
- Batmobile采用编译时常量、寄存器中间变量和融合运算实现性能优化
- 基准测试显示Batmobile在球谐函数和张量积运算上比e3nn快10-20倍
- 该工具专为L_max=3场景设计，34条Clebsch-Gordan路径全部展开且系数作为编译时常量
- 项目命名Batmobile（蝙蝠车）寓意其专为分子模拟设计的高性能特性
- 已在GitHub开源并提供基准测试和示例，支持快速集成
Show HN: Sweep, Open-weights 1.5B model for next-edit autocomplete
4 months ago
- Sweep Next-Edit 1.5B 是一个用于代码自动补全的下一编辑预测模型，采用 Q8_0 量化的 GGUF 格式。
- 它能在你实际修改前预测下一步代码编辑，通过推测解码技术在你的笔记本上以低于 500 毫秒的延迟本地运行。
- 在下一编辑预测基准测试中，其性能超过比它大 4 倍以上的模型。
- 使用方式包括下载 run_model.py 脚本和模型文件，然后通过 pip 安装依赖项。
- 模型详情：GGUF 格式（Q8_0 量化），15 亿参数，8192 token 上下文长度，基于 Qwen2.5-Coder 架构。
- 采用特定提示格式，包含文件上下文、近期差异和当前状态以进行预测。
- 提供技术细节博客链接和 JetBrains 插件下载。
- 采用 Apache 2.0 许可证，上月下载量 21 次。
- 硬件兼容性支持 8 位推理，但当前暂不支持推理加速器。

About|Login

#machine learning

What Drives Success in Physical Planning with JEPA World Models?

The Lottery Ticket Hypothesis: finding sparse trainable NNs with 90% less params

OpenAI Board Member Zico Kolter's Modern AI Course

DatBench: Discriminative, faithful, and efficient VLM evaluations

Hierarchical Autoregressive Modeling for Memory-Efficient Language Generation

LMArena is a cancer on AI

Distinct AI Models Seem to Converge on How They Encode Reality

Tamarind Bio (YC W24) Is Hiring Infrastructure Engineers

Dynamic Large Concept Models: Latent Reasoning in an Adaptive Semantic Space

GLM-4.7: Frontier intelligence at record speed – now available on Cerebras

Clearspace (YC W23) Is Hiring an Applied Researcher (ML)

Counterfactual evaluation for recommendation systems

KerasHub: a pretrained modeling library

How scientists are using Claude to accelerate research and discovery

Starting from scratch: Training a 30M Topological Transformer

Ultrathink is deprecated & How to enable 2x thinking tokens in Claude Code

GLM-4.7-Flash

DeepSeek kicked off 2026 with a new AI training method for scaling

Batmobile: 10-20x Faster CUDA Kernels for Equivariant Graph Neural Networks

Show HN: Sweep, Open-weights 1.5B model for next-edit autocomplete