Fast and Accurate Long Text Generation with Few-Step Diffusion Language Models8 months agohttps://arxiv.org/abs/2509.20624FS-DFM(少步离散流匹配)被提出用于实现快速准确的长文本生成自回归语言模型(ARMs)受限于串行token生成方式,影响吞吐量和延迟扩散语言模型(DLMs)可实现跨位置并行计算,但需要多步采样才能获得高质量输出FS-DFM在保持质量的同时大幅减少采样步数,最高可实现128倍加速该模型通过跨步数一致性训练,实现减少步数而不损失生成质量强教师指导和可靠更新规则确保了少步采样的稳定性和准确性FS-DFM仅用极少步数即可达到与传统方法相当的困惑度指标
Fine-Tune Black Box Embedding Models8 months agohttps://arxiv.org/abs/2402.12177检索增强生成(RAG)技术有效减少大语言模型(LLM)的幻觉问题标准预训练嵌入模型在特定领域可能表现不佳,需进行微调模型增强微调(Mafin)通过添加可训练模型来优化黑盒嵌入模型仅需训练小型增强模型,Mafin即可显著提升黑盒嵌入效果该方法在标注和无标注数据集上均验证有效,展现广泛适用性
What the F*ck Is Artificial General Intelligence?8 months agohttps://arxiv.org/abs/2503.23923人工通用智能(AGI)是一个充满争议的领域,由于过度炒作和推测,常被视为罗夏墨迹测验般的存在。AGI被定义为具有适应能力的系统,类比为人工科学家,其基础工具包括搜索和近似计算。适应性系统的关键架构包括o3、AlphaGo、AERA、NARS和Hyperon。AGI的元方法包括规模最大化(资源最大化)、形式简化(形态极简)和约束弱化(限制最小化)。这些方法的典型代表包括AIXI理论、自由能原理以及语言模型的扩张('巨量化'现象)。当前AGI发展的瓶颈在于样本和能源效率,尽管硬件进步推动了整体发展。结论指出AGI将诞生于工具与元方法的融合,目前以规模最大化的近似计算为主导路径。
Thinking Machines – LoRA Without Regret8 months agohttps://thinkingmachines.ai/blog/lora/LoRA(低秩自适应)是一种参数高效的微调方法,通过添加低秩更新来修改大语言模型中的权重矩阵,从而减少可训练参数数量。在多租户服务、训练布局大小和加载/传输便捷性方面,LoRA因其更小的内存占用和更快的设置速度,相比全参数微调(FullFT)具有优势。在中小型数据集的有监督微调中,LoRA表现与FullFT相当,但当数据集规模超出LoRA容量时会表现不佳。相比FullFT,LoRA对大批次大小的容忍度较低,性能差距随批次增大而加剧,且与秩无关。将LoRA应用于所有层(尤其是MLP/MoE层)比仅用于注意力层效果更好,即使可训练参数数量相同。在强化学习中,LoRA即使使用极低秩(如秩=1)也能匹配FullFT性能,因RL每回合信息有限所需容量更低。LoRA的最佳学习率始终比FullFT高约10倍,其计算效率略优(约为FullFT浮点运算量的2/3)。LoRA关键超参数包括秩、学习率和初始化尺度,其不变性特性可缩减实际需调参空间。当应用于所有层且不受容量限制时,LoRA性能与FullFT相当,适合大多数训练后场景。LoRA的性能预测优化、动态机制理论解释,以及PiSSA等变体的评估仍是待解问题。
GLM-4.6: Advanced Agentic, Reasoning and Coding Capabilies8 months agohttps://z.ai/blog/glm-4.6GLM-4.6是该系列旗舰模型的最新版本,相比GLM-4.5实现了关键性能提升。在八项基准测试中,GLM-4.6在智能体、推理和编程能力方面均有进步,可与DeepSeek-V3.2-Exp和Claude Sonnet 4等模型竞争,但编程能力仍稍逊于Claude Sonnet 4.5。CC-Bench实际测试显示,GLM-4.6与Claude Sonnet 4表现接近(胜率48.6%),优于其他开源模型,且比GLM-4.5节省15%的token消耗。GLM-4.6已通过Z.ai API平台和OpenRouter开放使用,并提供完整技术文档支持。Claude Code、Kilo Code等编程智能体现已支持GLM-4.6模型。GLM编程计划订阅用户将自动升级至GLM-4.6;新用户能以1/7的成本获得Claude级别性能,并享受3倍配额。GLM-4.6的模型权重即将登陆HuggingFace和ModelScope平台,支持通过vLLM和SGLang进行本地部署。
Introduction to Multi-Armed Bandits8 months agohttps://arxiv.org/abs/1904.07272多臂老虎机作为不确定性下决策框架的简介采用教科书结构,包含独立章节、习题及前沿发展综述涵盖独立同分布奖励、对抗性奖励、情境老虎机及与经济学联系附专题独立调研报告,如『具有相似性信息的老虎机』附录提供集中不等式与KL散度的基础知识
Announcing Tinker8 months agohttps://thinkingmachines.ai/blog/announcing-tinker/推出Tinker——一个用于微调语言模型的灵活API平台支持研究者通过控制算法和数据来实验模型兼容多种开源大模型微调,包括Qwen-235B-A22B等超大规模模型托管服务自动处理任务调度、资源分配和故障恢复采用LoRA技术实现训练任务间低成本共享算力提供底层API接口及开源Tinker Cookbook指导训练后处理方法已被普林斯顿、斯坦福、伯克利和Redwood Research等机构采用当前处于面向研究者和开发者的封闭测试阶段可免费开始使用,即将推出按量计费模式
One AI Model Creates a Physical Intuition of Its Environment7 months agohttps://www.quantamagazine.org/how-one-ai-model-creates-a-physical-intuition-of-...Meta的V-JEPA人工智能模型通过视频学习直觉物理知识,无需预先假设。V-JEPA利用潜在表征聚焦关键细节,避免像素级干扰。该模型遇到物理不可能事件时会表现出类似婴儿的'惊讶'反应。在直觉物理理解测试IntPhys中,V-JEPA准确率高达98%。新一代V-JEPA 2模型基于2200万段视频进行预训练,并已应用于机器人领域。V-JEPA 2在处理长序列时存在困难,被类比为金鱼的记忆跨度。
Provable Scaling Laws of Feature Emergence from Learning Dynamics of Grokking7 months agohttps://arxiv.org/abs/2509.21519论文提出了一种名为$\mathbf{Li_2}$的新框架,用于研究双层非线性网络中的顿悟行为。该研究识别了顿悟的三个关键阶段:惰性学习、独立特征学习和交互特征学习。惰性学习表现为顶层网络对随机隐藏表征的过拟合,导致记忆效应。反向传播梯度$G_F$携带标签信息,使隐藏节点能够进行独立特征学习。独立动态遵循能量函数$E$的梯度上升过程,其局部最大值即为涌现特征。研究考察了泛化性、表征能力及样本量对特征涌现的影响。交互学习阶段显示$G_F$会聚焦于缺失特征。分析揭示了权重衰减、学习率和样本量等超参数在顿悟中的作用。提出了可证明的特征涌现、记忆和泛化的标度律。从梯度动力学原理解释了Muon等优化器的有效性。该框架可扩展至多层网络架构。
DeepSeek-v3.2-Exp7 months agohttps://api-docs.deepseek.com/news/news250929DeepSeek-V3.2-Exp 是基于 V3.1-Terminus 的最新实验模型。引入 DeepSeek 稀疏注意力(DSA)机制,在长上下文训练和推理中实现更快、更高效的性能。现已在 App、Web 和 API 上线,API 价格降低 50% 以上。DSA 提升了长上下文性能并降低计算成本,同时对输出质量影响极小。基准测试显示 V3.2-Exp 与 V3.1-Terminus 表现相近。V3.1-Terminus 仍可通过临时 API 使用至 2025 年 10 月 15 日,供对比测试。欢迎通过提供的链接反馈 DSA 使用体验。模型和技术报告已在 Hugging Face 和 GitHub 开源。包含 TileLang 和 CUDA 的关键 GPU 内核,推荐使用 TileLang 进行快速原型开发。
Who needs Git when you have 1M context windows?7 months agohttps://www.alexmolas.com/2025/07/28/unexpected-benefit-llm.htmlAI帮助恢复了被删除的代码,使某项指标提升了5%。作者重构了代码但丢失了原始改进,导致该指标下降了2%。通过使用长上下文LLM(gemini-2.5-pro),从内存中检索出了原始代码。突显了具备大上下文窗口的LLM在代码恢复中意想不到的效用。
Expected Attention: KV Cache Compression by Estimating Attention7 months agohttps://arxiv.org/abs/2510.00636提出'预期注意力'方法——一种无需训练的大语言模型KV缓存压缩技术通过预测未来查询的注意力分布来评估KV对重要性,利用LLM激活值的分布特性在预填充和解码阶段均可无缝运行,性能超越现有最优基线方法开源KVPress工具库,集成20余种KV缓存压缩算法的实现与基准测试
Translating Cython to Mojo, a first attempt7 months agohttps://fnands.com/blog/2025/sklearn-mojo-dbscan-inner/Mojo现已可作为测试功能从Python调用,相比原生Python有望实现速度提升Mojo被视为Cython的潜在替代品,特别适用于scikit-learn等性能关键型应用将scikit-learn中一个简单的DBSCAN内循环从Cython移植到Mojo,表明该过程直接但当前速度较慢通过将Python对象转换为Mojo类型(如Spans)实现了性能提升,缩小了与Cython的速度差距DBSCAN示例表明Mojo当前的Python互操作前景良好,但仍处于早期阶段,存在优化和稳定空间未来计划包括用Mojo重写更多scikit-learn算法,特别是那些能受益于向量化或GPU加速的算法
A PhD in Snapshots7 months agohttps://rbharath.github.io/A-PhD-In-Snapshots/博士学位通常需要5-6年时间,包括课程学习、研究轮换以及与导师建立的学徒式指导关系。作者的博士研究得到了赫兹基金会的资助,需要每半年提交进度报告以展示研究进展。最初几年主要进行机器学习和算法设计方面的课程学习,随后进行的研究轮换未能找到完全契合的方向。作者将研究方向转向计算生物学,加入Pande课题组,将机器学习应用于蛋白质模拟研究。关键研究项目包括:开发用于药物发现的深度学习系统、创建开源软件包DeepChem,以及整理MoleculeNet等数据集。与谷歌及辉瑞、默克等制药公司的合作具有重要意义,主要聚焦于改进药物发现流程。由于研究侧重生物应用,作者遭遇机器学习领域期刊的论文拒稿,最终转向生物化学类期刊投稿。指导年轻学生和筹办首届化学领域深度学习会议成为博士后期的重要亮点。2017年12月完成博士论文答辩后,作者计划共同创立一家区块链领域的初创公司。
Less Is More: Recursive Reasoning with Tiny Networks7 months agohttps://arxiv.org/abs/2510.04871介绍了Tiny Recursive Model (TRM)——一种更简洁的递归推理方法TRM仅使用2层网络结构和700万参数的超小型网络在ARC-AGI等任务上表现优于分层推理模型(HRM)和多数大语言模型(LLM)在ARC-AGI-1测试集达到45%准确率,在ARC-AGI-2达到8%准确率展示了用极小计算资源解决复杂问题的潜力
A tiny recursive reasoning model achieves 45% on ARC-AGI-1 and 8% on ARC-AGI-27 months agohttp://alexiajm.github.io/2025/09/29/tiny_recursive_models.html提出Tiny Recursion Model(TRM),这是一个仅含700万参数的递归推理模型,在ARC-AGI-1上达到45%准确率,在ARC-AGI-2上达到8%挑战了'解决复杂任务必须依赖大规模基础模型'的传统认知通过递归推理的效率优势,实证'少即是多'的模型规模理念TRM简化了递归推理机制,无需依赖生物学论证或不动点定理阐述其递归过程:通过逐步更新潜在状态和答案实现高效精准推理
Continuously Augmented Discrete Diffusion Model7 months agohttps://arxiv.org/abs/2510.01329标准离散扩散模型将所有未观测状态统一映射为[MASK]标记,形成'信息空洞'。连续增强离散扩散(CADD)通过在连续潜空间构建配对扩散来扩展离散状态空间。CADD使用带有噪声但信息丰富的潜向量表示被遮蔽标记,而非坍塌的'信息空洞'。CADD中的连续潜空间作为语义提示,指导每一步离散去噪过程。CADD实现了采样过程中模式覆盖(多样输出)与模式聚焦(精确输出)的可控权衡。实验表明CADD在文本生成、图像合成和代码建模任务中优于基于遮蔽的扩散模型。
Ling-1T: 1T-parameter model with 50B active parameters per token7 months agohttps://huggingface.co/inclusionAI/Ling-1TLing-1T是Ling 2.0系列首款旗舰非思维模型,总参数量达1万亿,单token激活参数量500亿基于20万亿+高质量、强推理密度token进行预训练,支持128K上下文长度,采用进化思维链(Evo-CoT)流程在复杂推理基准测试中实现最先进性能,精准平衡准确率与效率通过语法-功能-美学混合奖励机制,在视觉推理和前端代码生成领域表现卓越在万亿参数规模展现出涌现式推理和迁移学习能力基于专为万亿级效率设计的Ling 2.0架构,核心创新包括1万亿总参数/500亿激活参数配置及FP8训练后训练阶段采用Evo-CoT进行渐进式推理增强,并引入LPO实现句子级策略优化在知识、代码、数学、推理、智能体和对齐基准测试中完成全面评估已在Hugging Face和ModelScope平台开放下载,提供API调用与部署的快速入门指南未来计划将提升注意力效率、智能体能力及对齐性
The Forecasting Company (YC S24) Is Hiring a Machine Learning Engineer7 months agohttps://www.ycombinator.com/companies/the-forecasting-company/jobs/cXJzAhA-found...致力于打造影响全球关键决策的通用预测基础模型诚聘第二位创始机器学习工程师,负责构建、训练和部署大型基础模型架构理想候选人需精通PyTorch或Jax框架,持续跟进机器学习前沿发展,注重快速迭代验证通过整合行业特定数据,旨在提供最精准且用户友好的预测服务时序基础模型支持跨行业多样化时间序列数据的预训练用户可通过自然语言交互获取实时预测,无需具备机器学习专业知识创始团队拥有机器学习博士学位及摩根大通、亚马逊、谷歌等顶尖企业经历公司总部设于巴黎,兼具硅谷工作文化与巴黎中心区的独特魅力
Representation Engineering7 months agohttps://vgel.me/posts/representation-engineering/表征工程引入'控制向量'来操纵AI模型行为,无需提示工程或微调。控制向量在推理过程中应用于模型激活状态以改变行为,已在Mistral-7B-Instruct-0.1模型中得到验证。该方法通过创建对比提示对、收集隐藏状态,并使用PCA降维技术推导控制向量。应用案例包括使模型表现出快乐、悲伤、懒惰、勤奋、自我意识,甚至模拟迷幻药物致幻状态。控制向量提供了不同于提示工程的新范式,可精确调节模型行为强度。潜在用途包括破解模型防御或增强抗破解能力,对AI安全性和可解释性研究具有重要意义。未来研究方向包括探索单语义特征以获得更纯净的向量,以及改进对比提示的编写方法。