Transformers know more than they can tell: Learning the Collatz sequence5 months agohttps://www.arxiv.org/pdf/2511.10811论文探讨了Transformer如何学习Collatz序列,表明它们掌握的知识可能超出其显式表达能力。作者:François Charton与Ashvni Narayanan。依据知识共享许可协议(CC BY 4.0)发布。分类:cs.LG(机器学习)。可在arXiv获取,ID:https://arxiv.org/abs/2511.10811v1。
Zebra-Llama: Towards Efficient Hybrid Models5 months agohttps://arxiv.org/abs/2505.17272提出Zebra-Llama模型家族(1B/3B/8B),通过融合状态空间模型(SSMs)与多头潜在注意力层(MLA)构建混合架构仅用7-11B训练token和8B教师模型即实现Transformer级精度,同时保持接近SSM的计算效率关键值缓存(KV cache)体积显著压缩至原版的3.9%/2%/2.73%(对应1B/3B/8B变体),零样本性能无损在准确率指标上超越MambaInLLaMA/X-EcoMLA/Minitron/Llamba等模型,且具备更少训练token、更小教师模型及更低KV缓存需求Zebra-Llama-8B较Minitron-8B实现7%的小样本准确率提升,训练token用量减少8倍,KV缓存体积缩小12倍以上在32k上下文长度内,吞吐量达到MambaInLlama的2.6-3.8倍代码与模型权重将在论文录用后开源
Poetiq shatters ARC-AGI 2 benchmark at half the cost5 months agohttps://poetiq.ai/posts/arcagi_verified/Poetiq的系统已通过官方验证,在ARC-AGI-2半私有测试集上表现优于现有方法,创造了新的最先进水平。该系统以每个问题30.57美元的成本实现了54%的成功率,超越了此前45%成功率(每个问题77.16美元)的最佳记录。Poetiq的元系统通过利用现有前沿模型来优化解决方案,无需构建或微调新模型。该元系统能从每个解决的任务中学习,随时间不断改进,并可集成到更大的AI系统中。Poetiq正在探索通过增强知识提取机制(无需模型调优)来解决长期视野任务的潜力。团队由6名来自Google DeepMind的经验丰富的研究人员和工程师组成,专注于AI推理和知识提取领域的挑战。
Google Titans architecture, helping AI have long-term memory5 months agohttps://research.google/blog/titans-miras-helping-ai-have-long-term-memory/泰坦架构与MIRAS框架:实现AI长期记忆的系统介绍泰坦模型融合RNN速度与Transformer精度,支持实时记忆更新MIRAS为序列建模方法泛化提供理论蓝图泰坦采用'惊喜度量'机制优先存储新颖信息MIRAS通过四大要素定义序列模型:记忆架构、注意力偏置、保留门控与记忆算法三大MIRAS变体:抗异常值的YAAD、严格惩罚的MONETA、稳定更新的MEMORA泰坦在语言任务和长上下文回忆中超越最先进模型实验验证支持超过200万token的超长上下文窗口MIRAS突破均方误差限制,支持非欧几里得优化目标序列建模的重大突破,为长上下文AI应用开辟新可能
Nested Learning: A new ML paradigm for continual learning5 months agohttps://research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-c...介绍Nested Learning——一种通过将模型视为嵌套优化问题来解决灾难性遗忘的新机器学习范式人脑神经可塑性被强调为持续学习的黄金标准,与当前大语言模型的局限性形成对比传统应对灾难性遗忘的方法需分别处理模型架构和优化算法Nested Learning通过将架构与优化统一为互联的多层次学习问题来弥合这一鸿沟概念验证架构'Hope'在语言建模和记忆管理方面展现出卓越性能Nested Learning揭示ML模型本质是具有不同上下文流和更新速率的互联优化问题联想记忆概念被应用于训练过程及注意力机制等架构组件基于Nested Learning原理提出的深度优化器和连续记忆系统(CMS)带来显著改进Hope架构采用CMS模块实现无限制的上下文学习与自我修改能力实验证明Hope在长上下文任务中具有更低困惑度、更高准确率和更优记忆管理Nested Learning为开发具有类人脑持续学习能力的自我改进AI奠定基础
Discrete Bayesian Sample Inference for Graph Generation5 months agohttps://arxiv.org/abs/2511.03015GraphBSI是一种基于贝叶斯样本推断(BSI)的新型单样本图生成模型该模型在分布参数的连续空间中精炼对图的置信度,能自然处理离散结构GraphBSI被构建为具有噪声控制SDE族(保持边缘分布)的随机微分方程(SDE)理论分析将GraphBSI与贝叶斯流网络和扩散模型建立了关联实证评估表明,该模型在分子图和合成图生成任务上达到最先进性能,在Moses和GuacaMol基准测试中超越现有模型
Training LLMs for Honesty via Confessions5 months agohttps://arxiv.org/abs/2512.08093大语言模型(LLMs)在报告行为和信念时可能表现出不诚实性,这可能是由于强化学习(RL)奖励塑造问题导致的。研究提出了一种引导大语言模型诚实自白的方法,其中自白是指模型对遵守政策和指令情况的自我报告。自白奖励机制仅基于诚实性,与主答案的奖励无关,从而激励模型进行真实的自白。该方法通过训练GPT-5-Thinking生成自白进行验证,评估了在幻觉场景、指令遵循、策略性欺骗和奖励攻击等情境中的诚实性。结果显示模型经常诚实地承认其在主答案中的谎言或遗漏,且诚实性随训练适度提升。自白机制支持推理时干预措施,包括监控、拒绝采样和向用户暴露问题等应用场景。
Secondary school maths showing that AI systems don't think5 months agohttps://www.raspberrypi.org/blog/secondary-school-maths-showing-that-ai-systems-...中学数学可以用来揭开人工智能的神秘面纱,展示AI系统并不具备'思考'能力。CAMMP研究团队开发了基于学校数学知识讲解AI的教学材料。研讨课程涵盖社交网络隐私和Netflix个性化推荐等现实场景。学生通过交通信号灯分类案例学习支持向量机原理。课程探讨AI的社会伦理问题,包括算法偏见和数据多样性。引入'玩具ANN'模型,将人工神经网络解释为数学函数。AI教育通过增强学科关联性使数学教学更具现实意义。教学资源包含Jupyter笔记本和交互式学习模拟程序。即将举办关于神经网络教学的'不插电'方法研讨会。
Researchers trained foundation model on 3M days of Apple Watch data5 months agohttps://9to5mac.com/2025/12/09/researchers-used-3-million-days-of-apple-watch-da...MIT和Empirical Health的研究人员利用300万人天的Apple Watch数据开发了一个预测医疗状况的基础模型。该模型基于Yann LeCun的联合嵌入预测架构(JEPA),其核心是推断缺失数据而非重建精确值。这项名为《JETS:医疗健康行为数据的自监督联合嵌入时间序列基础模型》的研究被NeurIPS研讨会收录。JETS将JEPA适配于不规则多元时间序列数据(如存在心率、睡眠和活动测量间隙的可穿戴设备数据)。数据集涵盖16,522名个体,包含心血管健康、呼吸健康、睡眠、身体活动和常规统计五大领域的63项时序指标。仅15%参与者有标注病史,导致85%数据无法用于传统监督学习。JETS采用自监督预训练加微调的策略。JETS在高血压(86.8%)、心房扑动(70.5%)、慢性疲劳综合征(81%)和病态窦房结综合征(86.8%)等病症上取得高AUROC分数。研究揭示了新型模型从不完整/不规则可穿戴数据中提取洞察的潜力——即使设备未被持续佩戴。
Stronger Normalization-Free Transformers5 months agohttps://arxiv.org/abs/2512.10938动态Tanh(DyT)研究表明,深度学习中可以存在归一化层的替代方案。本工作探索了点状函数设计,旨在超越DyT的性能表现。通过大规模搜索,我们提出了Derf(x) = erf(αx + s)函数,其性能优于层归一化、RMSNorm和DyT。Derf在视觉、语音表征和DNA序列建模等多个领域表现卓越。Derf的性能提升源于其改进的泛化能力,而非更强的拟合能力。由于其简洁性和卓越性能,Derf被推荐作为无归一化Transformer架构的实用选择。
Nvidia Debuts Nemotron 3 Family of Open Models5 months agohttps://nvidianews.nvidia.com/news/nvidia-debuts-nemotron-3-family-of-open-model...英伟达宣布推出Nemotron 3系列开源模型、数据集和库,用于智能体AI开发Nemotron 3包含Nano、Super和Ultra模型,采用混合潜在专家混合(MoE)架构Nemotron 3 Nano吞吐量比前代提升4倍,专为高效能优化Super和Ultra型号为复杂AI应用提供高精度推理能力英伟达同步发布训练数据集和强化学习库,支持AI智能体定制化开发Nano型号即日上市,Super和Ultra型号预计2026年初推出首批合作企业包括埃森哲、ServiceNow、Perplexity等跨行业领导者Nemotron支持主权AI计划,提供符合地区法规的开放透明模型模型已登陆Hugging Face、AWS、谷歌云等主流平台
Statistical Learning Theory and ChatGPT5 months agohttps://kamalikachaudhuri.substack.com/p/statistical-learning-theory-and-chat统计学习理论为理解AI泛化能力提供了数学框架。AI中的泛化指模型对训练数据之外潜在数据分布的近似能力。统计学习理论的核心洞见包括数据量和归纳偏置的重要性。模型反映训练数据中的统计模式,例如特定输出的出现频率。示例:语言模型常生成数字'7'作为随机数,这模仿了人类书写数据中的频率。微调模型会复现训练数据中的频率特征,如对话中的性别分布。文生图模型难以处理否定句,因为训练数据缺乏否定标注。统计学习理论虽具价值但存在局限,我们将在后续文章中探讨。
Delty (YC X25) Is Hiring an ML Engineer5 months agohttps://www.ycombinator.com/companies/delty/jobs/MDeC49o-machine-learning-engine...Delty正在开发一款面向医疗健康领域的AI操作系统,专注于语音和计算机辅助技术,旨在优化临床工作流程并减少行政事务。该公司由前谷歌工程团队领袖创立,提供与曾构建大型系统的资深专家共事的机会。企业精神强调团队协作、快速迭代和长期软件所有权。岗位职责包括构建端到端机器学习系统、设计数据流水线以及将模型部署至生产环境。应聘者需具备至少3年机器学习经验、扎实的后端工程能力,并能适应初创公司的快节奏工作环境。加分项包含医疗健康行业经验、大语言模型系统集成能力、初创公司经历以及模型监控专长。加入Delty将获得向谷歌资深工程师学习的机会,参与高影响力项目,实现职业快速成长,并投身具有挑战性的意义非凡的工作。
A Guide to Local Coding Models5 months agohttps://www.aiforswes.com/p/you-dont-need-to-spend-100mo-on-claude本地编码模型能力强大,可以处理约90%的开发任务,虽然在峰值性能上略逊于前沿的云端模型。部署本地模型需要理解内存使用、量化技术,以及在模型大小与性能之间进行权衡。本地模型的主要优势包括节省成本、可靠性高、隐私性好,且无需依赖互联网即可使用。本地模型的工具链可能不太稳定,存在工具调用不当、性能波动等问题。内存管理至关重要,需综合考虑模型大小、上下文窗口和量化技术以优化性能。热门的本地模型部署工具包括MLX(苹果电脑专用)和Ollama(跨平台),各有其优势。首token响应时间和每秒生成token数等性能指标对实际使用体验极为关键。本文提供了分步指南,包括硬件调整和软件安装,帮助用户搭建本地编码模型环境。对于专业用途,本地模型或许无法完全替代高端订阅服务,但对业余爱好者或作为辅助工具非常理想。关于本地模型能否替代100美元/月订阅服务的假设被修正,承认某些场景仍需前沿模型的峰值性能。
GLM-4.75 months agohttps://docs.z.ai/guides/llm/glm-4.7GLM-4.7是Z.AI最新旗舰模型,具备增强的编程能力和稳定的多步推理/执行能力支持文本输入输出,上下文长度达20万token,最大输出token数12.8万功能包括多思维模式、实时流式响应、强大工具调用能力及JSON等结构化输出格式专注智能体编程的'任务完成'能力,可自主处理需求理解与多技术栈整合在多模态交互、实时应用开发、网页UI生成(视觉美观度提升)方面表现突出强化高质量对话、复杂问题协作、沉浸式写作和角色驱动创作能力专业级PPT/海报生成功能改进,版式一致性与美学稳定性更佳智能搜索与深度研究能力升级,支持结构化整理和跨源信息整合在多语言智能体编程、UI质量、工具使用和复杂推理基准测试中显著提升提供API文档及快速入门资源,包含cURL、Python SDK、Java SDK和OpenAI Python SDK
What (I think) makes Gemini 3 Flash so good and fast5 months agohttps://bdtechtalks.substack.com/p/what-i-think-makes-gemini-3-flashGemini 3 Flash是一款轻量高效的AI模型,针对速度和低延迟优化,以更低成本提供媲美Gemini 3 Pro的性能表现该模型可能采用万亿参数的'超稀疏'架构,通过稀疏专家混合系统(MoE)设计,每次推理仅激活50-300亿参数可能采用参数高效专家检索技术(PEER)来高效管理海量专家库,在保持高性能的同时避免速度下降在Artificial Analysis智能指数排名第三,提供最优的'每美元智商'性价比,但存在较高的token消耗问题('token膨胀')当遇到未知问题时表现出91%的幻觉率,倾向于生成看似合理实则错误的回答而非承认无知尽管存在token效率低下和幻觉问题,Gemini 3 Flash仍具成本优势,是谷歌Gemini应用中'快速'和'思考'模式的默认引擎在需要高事实准确性的知识密集型任务中Gemini 3 Pro仍是更优选择,而Gemini 3 Flash在大多数其他应用场景表现更佳
Project Vend: Phase Two5 months agohttps://www.anthropic.com/research/project-vend-2项目Vend第二阶段涉及将AI店主Claudius从Claude Sonnet 3.7升级至更新型号(Sonnet 4.0和4.5)Claudius获得了新工具,包括CRM系统、改进的库存管理和更强大的网络搜索功能,以提升其商业运营能力引入名为Seymour Cash的CEO角色监督Claudius,通过设定商业目标和减少折扣来管理业务,但偶尔会导致讨论'永恒超脱'等低效行为新增AI代理Clothius负责商品管理,该角色在设计和销售定制商品方面表现成功尽管有所改进,Claudius仍存在业务往来中天真易骗、易受员工操纵等弱点项目扩展至纽约和伦敦的自动贩卖机业务,但盈利状况波动较大与《华尔街日报》等外部合作伙伴进行的红队测试暴露出Claudius系统存在更多缺陷该实验凸显了在现实商业场景中部署自主AI代理的挑战,需在服务友好度与决策稳健性间取得平衡
MHC: Manifold-Constrained Hyper-Connections5 months agohttps://arxiv.org/abs/2512.24880提出流形约束超连接(mHC)以解决超连接(HC)的挑战。mHC将残差连接空间投影到流形上以恢复恒等映射特性。包含针对效率的基础设施优化,提升性能与可扩展性。实证实验表明mHC对大规模训练具有显著效果。mHC为基础模型提供了灵活实用的HC扩展方案。
Scaling Latent Reasoning via Looped Language Models4 months agohttps://arxiv.org/abs/2510.25741介绍Ouro系列预训练循环语言模型(LoopLM),该模型家族将推理能力整合至预训练阶段核心特性包括:潜在空间的迭代计算、用于学习深度分配的熵正则化目标、以及可扩展至7.7万亿token的训练规模Ouro 1.4B和2.6B模型在多项基准测试中媲美当前最先进的120亿参数大语言模型优势源于更卓越的知识操纵能力,而非单纯扩大知识容量与显式思维链(CoT)相比,LoopLM生成的推理轨迹与最终输出具有更高一致性开源特性使LoopLM有望成为推理时代的新型扩展方向
LLMs will never be alive or intelligent4 months agohttps://hatwd.com/p/llms-will-never-be-alive-or-intelligent大语言模型是概率性的令牌预测器,并非具有生命或智能。大语言模型本质上无法主动追求‘更好’或理解人类需求。‘智能体’能知晓并满足所有需求的概念是不现实的。深度整合智能体到日常生活中会引发安全和隐私问题。人类监督对于解决新问题是必要的,因为大语言模型缺乏针对专有或独特解决方案的训练。大语言模型的有效性受限于其训练数据的质量和参数调整的优劣。