Agentic Context Engineering7 months agohttps://arxiv.org/abs/2510.04618介绍ACE(Agentic Context Engineering)框架,用于优化大语言应用中的情境演进机制通过结构化增量更新技术解决简洁性偏见和情境坍塌问题在智能体和专业领域基准测试中显著提升性能(智能体任务+10.6%,金融领域+8.6%)在降低适配延迟和部署成本的同时,有效利用自然执行反馈使用较小规模的开源模型即达到AppWorld排行榜顶级商业智能体的性能水平
Show HN: I invented a new generative model and got accepted to ICLR7 months agohttps://discrete-distribution-networks.github.io/离散分布网络(DDN)作为一种具有层次化离散分布的新型生成模型被提出DDN通过生成多个离散样本点逐层细化输出,从而拟合目标分布DDN的独特属性包括通用零样本条件生成能力和一维潜在表示实验证明DDN在CIFAR-10和FFHQ等数据集上具有显著效果DDN支持跨非像素域的零样本条件生成,且不依赖梯度计算训练阶段显示随着网络深度增加,生成图像与训练图像的相似度逐步提升分裂-剪枝策略比单独使用梯度下降能更有效降低KL散度未来研究方向包括超参数调优、扩展到ImageNet规模以及将DDN应用于语言建模DDN的GPU内存需求略高于传统GAN,但仍在可控范围内DDN通过选择与真实数据最相似的输出和使用L2损失函数来避免模式崩溃
Own your AI: Learn how to fine-tune Gemma 3 270M and run it on-device7 months agohttps://developers.googleblog.com/en/own-your-ai-fine-tune-gemma-3-270m-for-on-d...Gemma是一系列轻量级、先进的开放模型,采用与Gemini模型相同的技术构建而成。Gemma模型易于获取且高度可定制,下载量已超过2.5亿次,社区衍生版本达8.5万个。Gemma 3 270M的紧凑体型支持快速微调及设备端部署,提供灵活性与控制力。示例项目:训练将文本转换为表情符号的模型,并部署至网页应用中。使用QLoRA进行微调可降低内存需求,无需成本的Google Colab T4 GPU即可快速调整模型。量化技术能压缩模型体积,加速网页应用加载且对性能影响极小。通过MediaPipe或Transformers.js实现客户端部署,利用WebGPU进行本地计算。提供示例推理代码,帮助将定制模型集成到网页应用中。模型在缓存后本地运行,确保低延迟、隐私保护及离线功能。完整源代码和资源已开放,用户可立即启动自己的项目。
4x faster LLM inference (Flash Attention guy's company)7 months agohttps://www.together.ai/blog/adaptive-learning-speculator-system-atlasATLAS推出面向大语言模型推理的自适应学习推测系统,性能提升最高达4倍与静态推测器不同,ATLAS在运行时动态改进,从历史和实时流量模式中学习ATLAS在DeepSeek-V3.1上实现500 TPS,在Kimi-K2上达460 TPS,超越标准解码及Groq等专用硬件推测解码通过草稿模型提前生成候选token,经目标模型并行验证,从而加速推理ATLAS融合重型静态推测器与轻量自适应推测器,通过置信感知控制器实现最优性能该系统在强化学习训练中表现突出,能适应策略演化,显著缩短推演时间ATLAS属于Together Turbo优化套件,可与量化、TurboBoost-TTFT等技术协同实现端到端加速自适应系统在窄输入分布场景表现卓越,DeepSeek-V3.1上实现500 TPS的极致峰值效率Together AI正在招募研究科学家和工程师,共同推进高效AI部署
Nvidia DGX Spark: great hardware, early days for the ecosystem7 months agohttps://simonwillison.net/2025/Oct/14/nvidia-dgx-spark/NVIDIA DGX Spark是一款售价4000美元的台式'AI超级计算机',搭载强悍的ARM64硬件,包括20核CPU和NVIDIA GB10 GPU。该设备面向AI研究者,提供128GB共享内存和4TB NVMe固态硬盘,兼顾模型训练与运行需求。当前挑战在于ARM64架构的CUDA兼容性问题,部分预设x86架构的软件导致配置过程复杂化。NVIDIA已完善技术文档,提供指南和Docker容器以降低新用户学习门槛。Claude Code在设备故障排除和配置过程中发挥关键作用,包括Docker环境搭建和软件安装。通过Tailscale实现DGX Spark的远程访问,支持随时随地SSH连接和网页端操作。近期生态进展包括对Ollama、llama.cpp、LM Studio和vLLM的兼容支持,大幅提升可用性。作者因早期生态不完善持谨慎推荐态度,但指出其改进速度令人印象深刻。
A Gemma model helped discover a new potential cancer therapy pathway7 months agohttps://blog.google/technology/ai/google-gemma-ai-cancer-therapy-discovery/谷歌与耶鲁大学联合发布了Cell2Sentence-Scale 27B(C2S-Scale),这是一个用于单细胞分析的270亿参数模型。C2S-Scale基于Gemma架构构建,在实验室实验中验证发现了一条新型癌症治疗通路。该模型将silmitasertib(CX-4945)鉴定为条件放大器,可在免疫环境阳性设置中增强抗原呈递。实验室测试证实,silmitasertib联合低剂量干扰素可使抗原呈递效率提升50%。C2S-Scale揭示了生物学中的缩放定律,支持高通量虚拟筛选和新假说生成。模型及相关资源已发布于Hugging Face、GitHub平台及bioRxiv预印本。
Writing an LLM from scratch, part 22 – training our LLM7 months agohttps://www.gilesthomas.com/2025/10/llm-from-scratch-22-finally-training-our-llm文章总结了作者对Sebastian Raschka著作第5章的笔记,重点在于从零开始训练大型语言模型(LLM)。亮点包括理解交叉熵损失和困惑度指标,以及见证模型训练后生成文本的兴奋时刻。作者使用小型数据集(伊迪丝·华顿的《判决》)进行训练,观察到输出结果出人意料地连贯。加载OpenAI提供的预训练GPT-2权重后,模型输出连贯性显著提升。文中探讨了复现书中示例时面临的随机性和种子设置挑战。介绍了AdamW等优化器在训练中的作用,但作者表示后续会深入探讨其原理。一个显著发现是MacBook Air与RTX 3090显卡在训练速度上的巨大差异。作者对124M参数模型在个人设备或租赁硬件上的训练成本表示好奇。讨论了防止模型输出'记忆/复读'的技术,如温度调节和top-k采样。详细说明了将OpenAI的GPT-2权重集成到自定义模型的过程及最佳实践。文章最后表达了对下一章"使用训练好的模型进行文本分类"内容的期待。
Generalized Orders of Magnitude7 months agohttps://arxiv.org/abs/2510.03426引入广义数量级(GOOMs)概念,实现大动态范围实数计算的稳定处理通过高效自定义并行前缀扫描算法实现GOOMs,支持GPU等并行硬件的原生执行通过三个实验证明GOOMs的优越性:实数矩阵连乘运算、李雅普诺夫指数谱估计、深度循环神经网络中的长程依赖捕捉GOOMs与高效并行扫描相结合,为高动态范围应用提供了可扩展且数值稳健的浮点数替代方案
BERT Is Just a Single Text Diffusion Step7 months agohttps://nathan.rs/posts/roberta-diffusion/谷歌DeepMind推出Gemini Diffusion,这是一种采用扩散过程生成文本的语言模型,其工作原理与传统GPT模型不同——通过逐步优化噪声来生成完整文本块。离散语言扩散是掩码语言建模(MLM)的泛化形式,与2018年提出的BERT方法原理相似。原始Transformer架构(2017)采用编码器-解码器设计,但2018年出现的BERT(纯编码器)和GPT(纯解码器)模型在不同任务中各有所长。扩散模型在图像生成领域流行后,研究者通过基于掩码的噪声处理机制将其适配文本领域——文本先被逐步掩码再逆向去噪。增强型BERT模型RoBERTa通过HuggingFace库在WikiText数据集上微调,实现了基于扩散的文本生成,展现出良好潜力。微调后的RoBERTa模型能生成连贯文本,但仍保留WikiText数据集格式带来的一些特殊表达习惯。与GPT-2的对比显示,GPT-2输出更连贯且速度略快,但RoBERTa扩散模型成功验证了概念可行性。实验证明:通过将可变速率掩码视为离散扩散过程,BERT类模型可被改造用于生成式任务。
Production RAG: what I learned from processing 5M+ documents7 months agohttps://blog.abdellatif.io/production-rag-processing-5m-documents从Langchain和Llamaindex开始构建RAG系统,快速实现了原型但生产环境效果欠佳。关键改进包括:通过查询生成扩大上下文覆盖、重排序提升文本块相关性、优化分块策略。通过添加标题/作者等元数据增强LLM响应,并实现非RAG问题的查询路由功能。技术栈从Azure演进至Pinecone再到Turbopuffer向量数据库,定制了文档提取和分块方案。项目以MIT协议开源为agentset-ai/agentset,共享技术经验和解决方案。
Why Can't Transformers Learn Multiplication?7 months agohttps://arxiv.org/abs/2510.00184尽管语言模型能力不断增强,但在多位乘法运算上仍存在困难。逆向工程显示模型通过隐式思维链学习乘法运算。关键发现包括:长程结构证据、依赖关系编码机制以及部分积的空间几何特性。模型通过注意力机制编码长程依赖,构建有向无环图来缓存和检索部分积。部分积在注意力头中通过闵可夫斯基和实现,数字以傅里叶基表示。标准微调模型会收敛于缺乏必要长程依赖的局部最优解。通过线性回归预测'运行总和'的辅助损失函数,可成功学习多位乘法运算。该研究揭示了Transformer学习长程依赖的陷阱,并提出归纳偏置作为解决方案。
Show HN: AutoLearn Skills for self-improving agents7 months agohttps://www.autolearn.devAutoLearn将AI代理的推理过程转化为可靠、确定性的代码。每个代理根据使用模式构建独特的技能库。无需人工训练;AutoLearn从AI推理中自主学习。随着代理遇到新场景,技能持续提升。通过用确定性代码替代AI推断,降低多步骤工作流的失败率。代理自动开发并修正技能,无需人工干预。使代理从简单工具调用进化至真正的技能发展。用具备自适应学习能力的代理取代RPA和工作流工具。技能可在代理集群间共享,加速学习进程。
Principles and Methodologies for Serial Performance Optimization7 months agohttps://danglingpointers.substack.com/p/principles-and-methodologies-for论文概述了八种串行性能优化方法:批处理、缓存、预计算、延迟执行、松弛化、情境化、硬件专用化和分层处理。作者将GPT-4o微调为SysGPT模型,该模型能根据问题描述和性能观测数据推荐优化策略。SysGPT在针对给定问题选择优化技术方面表现优于基准GPT-4o模型。本文主要研究串行代码优化,但暗示了该方法可扩展应用于并行化问题的潜力。未来工作可探索从源代码和分析数据自动生成性能观测指标的功能。
Helion: A High-Level DSL for Performant and Portable ML Kernels7 months agohttps://pytorch.org/blog/helion/Helion是一种高级Python嵌入式领域特定语言(DSL),可将代码编译为优化的Triton代码,在PyTorch的简洁性与底层性能之间架起桥梁。它自动化了张量索引、内存管理和硬件特定调优,使开发人员能够专注于算法逻辑而非实现细节。Helion采用'PyTorch with Tiles'编程模型,最大限度减少样板代码并复用现有PyTorch知识,使内核开发更加直观。Helion的自动调优引擎能自动构建并探索庞大的搜索空间以寻找最优内核配置,显著减少人工调优工作量。性能基准测试显示Helion优于torch.compile和手工编写的Triton内核,在NVIDIA和AMD GPU上均实现显著加速。案例研究表明,Helion能达到甚至超越手工优化内核(如用CuTe DSL或TileLang编写)的性能水平。Helion编译器架构能高效地将Python函数降级为优化后的Triton代码,仅在最终代码生成阶段应用性能关键配置。Helion计划于2025年10月22日发布Beta版,旨在为高性能机器学习内核提供高效开发范式。
The Free Transformer7 months agohttps://arxiv.org/abs/2510.17558提出了一种解码器Transformer的扩展方法,使其生成过程能够基于随机潜在变量进行条件化。潜在变量通过变分过程以无监督方式学习得到。实验评估表明,这种条件化机制显著提升了在下游任务中的表现。
A Novel Spinor-Based Embedding Model for Transformers7 months agohttps://arxiv.org/abs/2410.00038提出了一种在Transformer模型中使用几何代数中的旋量进行词嵌入的新方法。旋量为捕捉高维空间中复杂关系提供了数学框架。将单词编码为旋量旨在增强语言表征的表现力和鲁棒性。详细阐述了旋量的理论基础及其与Transformer架构的整合方式。讨论了该方法的潜在优势与实施挑战。
Antislop: A Framework for Eliminating Repetitive Patterns in Language Models7 months agohttps://arxiv.org/abs/2510.15061引入'slop'概念描述LLM输出中重复性短语对质量和可识别性的负面影响提出Antislop框架三大创新:Antislop采样器、自动化slop分析流程、FTPO微调方法实证数据显示LLM输出中的slop模式出现频率超人类文本1000倍以上Antislop采样器有效抑制8000+种slop模式且不损失文本质量FTPO方法实现90%的slop削减率并保持/提升跨领域评估表现对比实验显示DPO在写作质量和词汇多样性上劣于FTPO所有代码和研究成果已根据MIT许可证开源发布
FlashPack: Fast Model Loading for PyTorch7 months agohttps://blog.fal.ai/introducing-flashpack-lightning-fast-model-loading-for-pytor...FlashPack是一种专为PyTorch设计的高吞吐量文件格式与加载机制,旨在加速模型检查点的I/O操作它使模型加载速度比现有方法(如`accelerate`或`load_state_dict()`加`to()`)快3-6倍FlashPack将模型权重视为单一数据流而非独立文件,从而显著提升加载速度核心特性包括:将state_dict展平为连续字节流、内存映射读取技术、通过CUDA流实现磁盘/CPU/GPU操作重叠基准测试显示,其检查点加载速度比现有方法快2-6倍当前限制包括:要求所有权重数据类型必须相同,且不支持设备映射或状态字典转换用户可通过PyPI或GitHub安装FlashPack,它能无缝集成现有工作流(包括Hugging Face模型)
A Year of Fast Apply – Our Path to 10k Tokens per Second7 months agohttps://www.relace.ai/blog/relace-apply-3一年前发布Fast Apply模型,专注于针对代码任务的专用小模型微调开源训练方法论促成Relace Apply 3诞生,实现每秒处理10k+token的同时保持顶尖准确率指出昂贵大语言模型重复生成未修改代码的低效问题,提出轻量级差异应用解决方案创新性提出将LLM作为合并算法处理复杂差异并推断意图,显著提升准确度详解训练数据集生产过程,强调质量与多样性优先于规模,聚焦真实生产环境数据阐述合并评估流程,将结果分为六类以确保高质量训练数据采用LLM-as-a-judge机制扩展数据集过滤,实现低误报率以获取可靠训练样本运用LoRA进行高效模型训练,在保持通用编码知识的同时实现专业化通过推测解码技术实现每秒10k token处理速度,利用代码合并中的强先验实现并行token处理展示Relace Apply 3在合并精度、上下文长度和速度上的突破,确立行业领先地位回顾Fast Apply年度影响,突显其在结构化代码编辑可靠性方面的贡献宣布招聘研究员和工程师,持续开发面向编程任务的专用模型
Language Models Are Injective and Hence Invertible7 months agohttps://arxiv.org/abs/2510.15511Transformer语言模型已被证明是单射的,这意味着不同的输入不可能映射到相同的输出。该论文提出了SipIt算法,能够在线性时间内从隐藏激活状态精确重构输入文本。在六个最先进语言模型上的实证测试表明不存在碰撞现象,支持了单射性主张。这些发现对语言模型的透明度、可解释性及安全部署具有重要意义。