Not All Tokens Are Meant to Be Forgottena year agohttps://arxiv.org/abs/2506.03142大语言模型(LLMs)展现出人类水平的语言理解能力,但会记忆不需要的信息,如私有或受版权保护的内容。现有遗忘方法面临过度遗忘问题,抑制遗忘样本中的所有标记,导致模型效用丧失。定向信息遗忘(TIF)框架通过区分不需要词(UW)与通用词(GW)来改进遗忘效果。TIF采用带Logit偏好损失的定向偏好优化来遗忘UW,并通过保留损失维持GW。在TOFU和MUSE基准测试中,TIF在保持模型效用的同时显著提升了遗忘有效性。
Try the latest Gemini 2.5 Pro before general availabilitya year agohttps://blog.google/products/gemini/gemini-2-5-pro-latest-preview/Gemini 2.5 Pro 是一个升级版智能模型,即将作为稳定版本正式发布。该模型在LMArena上的Elo评分提升了24分(达1470分),在WebDevArena上提升了35分(达1443分)。在编程领域表现卓越,领跑Aider Polyglot等基准测试,并在GPQA和HLE的数学、科学及推理测试中表现优异。改进包括更佳的应答风格、结构组织与创意性。开发者可通过Gemini API(Google AI Studio/Vertex AI)获取,并配有思维预算功能以控制成本/延迟。正通过Gemini应用逐步推送。
Log-Linear Attentiona year agohttps://arxiv.org/abs/2506.04761Transformer中的注意力机制对序列建模至关重要,但其存在二次计算复杂度和线性内存复杂度的问题。线性注意力与状态空间模型提供了线性时间、恒定内存的序列建模方式,但受限于其固定大小的隐藏状态。对数线性注意力作为一种新机制被提出,通过使用对数级增长的隐藏状态集合,在效率与表达能力之间取得平衡。该机制可应用于现有各类线性注意力变体,在保持矩阵乘法并行化优势的同时,实现对数线性计算复杂度。案例研究表明,Mamba-2和对数线性门控DeltaNet等变体模型性能优于对应的线性时间模型。
Analog Foundation Modelsa year agohttps://arxiv.org/abs/2505.09663模拟内存计算(AIMC)显著提升神经网络推理的速度和能效AIMC带来噪声计算和严格量化约束等挑战现有大语言模型在AIMC硬件上难以实现4比特级性能新方法有效适配大语言模型至噪声多、低精度模拟硬件Phi-3-mini-4k-instruct和Llama-3.2-1B-Instruct等前沿模型保持与4比特权重、8比特激活基线相当的性能该方法同时支持低精度数字硬件的量化部署模型通过测试时计算缩放获得优势,表现优于静态量化模型该研究弥合了高容量大语言模型与高效模拟硬件之间的鸿沟
Show HN: Glowstick – type level tensor shapes in stable rusta year agohttps://github.com/nicksenger/glowstick该crate通过在类型系统中追踪张量形状,使Rust中的张量操作变得安全、简单且有趣。提供了使用candle的示例,包括matmul(矩阵乘法)、reshape(重塑)、unsqueeze(增加维度)、squeeze(压缩维度)、narrow(窄化)、broadcast_add(广播加法)、transpose(转置)、conv2d(二维卷积)和flatten(展平)等操作。该项目目前处于1.0之前的预发布阶段,意味着将会进行破坏性变更。特性包括:将张量形状表示为类型、支持动态维度、人类可读的错误信息,以及手动检查类型级形状。计划支持所有ONNX操作。
JavelinGuard: Low-Cost Transformer Architectures for LLM Securitya year agohttps://arxiv.org/abs/2506.07330JavelinGuard简介:一套低成本、高性能的Transformer架构,专为LLM安全设计针对生产环境优化,最小模型仅需4亿参数研究五种基于Transformer的架构:Sharanga、Mahendra、Vaishnava、Ashwina和Raudra在九个对抗性数据集(包括NotInject、BIPIA、Garak和JavelinBench)上进行严格基准测试与开源防护模型及GPT-4o等大型LLM的对比分析Raudra的多任务设计展现出最强的鲁棒性每种架构在速度、可解释性和资源需求方面呈现独特权衡
"The Illusion of Thinking" – Thoughts on This Important Papera year agohttps://hardcoresoftware.learningbyshipping.com/p/233-the-illusion-of-thinking-t...论文《思考的假象》探讨了AI和LLM的局限性,强调它们并非人类将AI拟人化导致期望膨胀、监管紧迫和认知混乱,阻碍了技术发展AI发展史充满期望落空的周期,被称为'AI寒冬',源于预期与现实的错配'学习'、'理解'、'偏见'等术语用于AI具有误导性,暗示了类人能力论文反对将AI视为具有人类特质的实体,主张将其视为工具AI工具的人性化会导致荒谬场景,例如为AI-用户交互提议'宪法权利'媒体等式研究表明人类容易过度信任计算机,这种行为自计算机诞生初期就已存在微软Clippy的教训说明AI设计需保持谦逊,并管理用户预期AI应被视为变革性工具而非威胁,人类始终掌握其使用控制权
Self-Adapting Language Modelsa year agohttps://arxiv.org/abs/2506.10943介绍了自适应性大语言模型框架SEAL,该框架通过让大模型自主生成微调数据和更新指令来实现自我调适SEAL使模型能够产生自我编辑指令,这些指令可重组信息、指定优化超参数,或调用工具进行数据增强和基于梯度的更新采用监督微调(SFT)实现持久化的权重更新,使模型获得长期适应能力通过强化学习循环训练模型,将更新模型的下游性能作为奖励信号与现有方法不同,SEAL直接利用模型自身生成的内容来控制其适应过程实验表明SEAL在知识整合和少样本泛化方面效果显著,标志着语言模型向自主适应方向迈出重要一步
Rethinking Losses for Diffusion Bridge Samplersa year agohttps://arxiv.org/abs/2506.10982扩散桥是一种用于从非归一化分布中采样的深度学习方法。使用重参数化技巧时,对数方差(LV)损失优于反向Kullback-Leibler(rKL)损失。对于扩散桥或学习扩散系数的情况,LV损失无法保持与rKL损失的等价性。采用对数导数技巧的rKL损失(rKL-LD)避免了概念性问题,且性能优于LV损失。实验结果表明,rKL-LD损失在扩散桥中能带来更好的性能。rKL-LD需要更少的超参数优化,并能提供更稳定的训练过程。
AI Isn't Magic, It's Mathsa year agohttps://zerofluff.substack.com/p/ai-isnt-magic-its-mathsAI并非魔法,而是复杂的数学与模式识别ChatGPT通过海量文本数据的模式预测回答,而非真正理解Midjourney通过统计学方法优化噪点来生成符合提示的艺术作品Claude等AI助手通过从训练数据中预测最可能答案来生成回复AI通过神经网络和概率计算等数学运算进行工作AI缺乏真正的理解力和常识,可能出现幻觉或捏造信息AI的偏见源于训练数据中反映的人类固有偏见GPT-4o和Claude 3等最新AI模型展现出更高的准确性和能力AI的进步来自更优质的数据、算力提升和算法改进AI只是工具而非生命体,其进步源于人类工程学的突破
Seven replies to the viral Apple reasoning paper – and why they fall shorta year agohttps://garymarcus.substack.com/p/seven-replies-to-the-viral-apple苹果公司关于大型推理模型(LRMs)局限性的论文引发了广泛讨论和媒体报道。针对苹果论文的七种主要反驳意见被分析,从吹毛求疵到巧妙论证不一而足,但均未形成有力驳斥。反驳意见的关键点包括:声称机器存在类人局限性、LRMs的输出标记限制,以及论文由实习生撰写等质疑。论文研究结果表明,单纯扩大模型规模可能无法解决根本性推理问题,需要将符号AI与神经网络相结合。Salesforce公司的论文佐证了苹果的发现,显示现有模型在多轮推理任务中表现欠佳。批评者认为论文案例有限,但作者相信未来会出现更多支持该结论的证据。作者强调需要开发结合神经与符号方法的AI系统,以实现可靠推理。
Human-like object concept representations emerge naturally in multimodal LLMsa year agohttps://www.nature.com/articles/s42256-025-01049-z本研究探讨了大语言模型(LLMs)和多模态LLMs如何发展出类人的物体表征能力。研究人员从LLMs收集了470万组三元组判断数据,为1,854个自然物体推导出66维嵌入表示。这些嵌入表示显示出与人类心理表征相似的语义聚类特征,且具有可解释性。模型嵌入与大脑皮层特定区域(如纹外体区和梭状回面孔区)的神经活动模式存在对应关系。研究结果表明LLMs形成的概念表征与人类认知存在基础性相似特征。该研究推进了对机器智能的理解,为开发类人AI系统提供了理论依据。相关数据和代码已公开,支持该领域的进一步研究。
Tiny-diffusion: A minimal implementation of probabilistic diffusion modelsa year agohttps://github.com/tanelp/tiny-diffusion2D数据集概率扩散模型的极简PyTorch实现二维点数据集上前向扩散过程的可视化逆向过程图示展示训练数据分布的恢复学习率、模型规模等超参数的消融实验学习过程对学习率的敏感性分析模型配置在线性数据集上表现欠佳,生成模糊拐角更长的扩散过程产生更优输出二次调度方案未显优势,建议尝试余弦或S型曲线隐藏层大小和深度实验中,模型容量未成瓶颈时间步信息对模型有益,编码方式影响较小正弦嵌入有助于学习高频函数参考文献包含Datasaurus Dozen、HuggingFace的diffusers库等
Breaking Quadratic Barriers: A Non-Attention LLM for Ultra-Long Context Horizonsa year agohttps://arxiv.org/abs/2506.01963提出了一种新型的非注意力机制架构,适用于具备超长上下文窗口处理能力(数十万至百万量级token)的大语言模型。通过消除token间的注意力机制,避免了传统Transformer架构中二次方的内存与计算开销。融合了四大核心技术:基于S4启发的状态空间模块实现近线性序列长度扩展、多分辨率卷积层捕捉局部上下文、轻量级循环监督器维护全局隐状态,以及检索增强的外部存储系统实现高效的高阶语义块嵌入存取。
MiniMax-M1 open-weight, large-scale hybrid-attention reasoning modela year agohttps://github.com/MiniMax-AI/MiniMax-M1MiniMax-M1是全球首个开放权重的大规模混合注意力推理模型采用混合专家架构(MoE)与闪电注意力机制支持100万token的上下文长度,是DeepSeek R1的8倍生成10万token时计算量仅为DeepSeek R1的25%通过大规模强化学习在多领域任务上训练创新性提出高效强化学习扩展算法CISPO提供两个版本:MiniMax-M1-40K和MiniMax-M1-80K在复杂任务上超越DeepSeek-R1、Qwen3-235B等模型测试涵盖数学、编程、软件工程等多领域支持函数调用,可通过vLLM或Transformers框架部署
I counted all of the yurts in Mongolia using machine learninga year agohttps://monroeclinton.com/counting-all-yurts-in-mongolia/《文明的陨落》播客发布了一集长达6小时45分钟关于蒙古帝国的节目,引发了对当代蒙古社会的新关注进入21世纪后,蒙古国快速实现了减贫目标,经济高速增长且生育率保持健康水平,但仍受腐败和治理问题困扰通过谷歌地图探索发现乌兰巴托存在大量蒙古包聚居区(蒙古包区),由此启动了一个利用机器学习统计蒙古包数量的项目基于YOLO算法开发的机器学习模型通过人工标注卫星图像进行训练,累计标注了超过1万顶蒙古包作为训练数据该项目通过Docker Swarm集群和租赁GPU实现规模化运算,处理了数百万张图像瓦片,最终统计出蒙古国全境共172,689顶蒙古包城市蒙古包现象折射出蒙古从游牧社会向城镇化工业社会的转型,住房短缺导致蒙古包区持续存在2002年土地私有化法案和《乌兰巴托2020总体规划》等政府开发蒙古包区的举措进展缓慢文章进一步提出了关于蒙古城镇化、工业化进程及其发展挑战的深层思考
Reasoning by Superposition: A Perspective on Chain of Continuous Thoughta year agohttps://arxiv.org/abs/2505.12514大语言模型(LLMs)通过思维链(CoTs)在推理任务中展现出强大性能。在定向图可达性等推理任务中,连续型思维链的表现优于离散型思维链。采用连续型思维链的双层Transformer可在D步(图直径)内解决定向图可达性问题。离散型思维链需要O(n²)步(n为顶点数),效率较低。连续型思维链将多个搜索边界编码为叠加态,实现类似并行BFS的探索。离散型思维链仅追踪单一路径,导致顺序搜索并可能陷入局部最优。实验证实,连续型思维链无需显式监督即可自然学习多路径探索能力。
Spherical CNNs (2018)a year agohttps://arxiv.org/abs/1801.10130球形CNN被提出用于分析球形图像,解决了传统CNN在处理平面图像时的局限性。应用领域包括无人机/机器人/自动驾驶汽车的360度全景视觉、分子回归分析和气候建模。直接将CNN应用于球形信号的平面投影会因空间变化失真而失效。该论文提出了一种具有表达力且满足旋转等变性的球形互相关定义。通过广义快速傅里叶变换(FFT)算法实现了高效计算。在3D模型识别和原子化能量回归任务中验证了有效性。
A Python-first data lakehousea year agohttps://www.bauplanlabs.com/blog/everything-as-python好的设计往往不被察觉,因为它无缝契合需求,使其隐于无形。不到五分之一的AI模型能成功投入生产,通常需要数周或数月时间。优秀的数据科学家既懂技术又懂业务需求,越是贴近问题越能创造更大影响力。多数机器学习项目需要软件工程知识,而这正是许多数据科学家的短板。模型投产存在两种问题模式:直接交付笔记本(脆弱)或转交DevOps团队(缓慢且昂贵)。更好的解决方案是使用marimo、bauplan等Python优先工具,实现从原型到生产的无缝过渡。Marimo是强制顺序执行、规范变量作用域的现代笔记本,使代码具备可复用性。Bauplan云数据平台通过Python化工作流、数据版本控制和声明式环境简化生产基础设施。两款工具都允许数据科学家直接复用笔记本代码进入生产环境,无需重构,既提升效率又减少交接环节。未来改进方向包括更优的环境管理,以及跨工具的共享声明式配置体系。
Scaling On-Device GPU Inference for Large Generative Modelsa year agohttps://arxiv.org/abs/2505.00232生成式AI的进步使得大型机器学习模型在图像处理、音频合成和语音识别等领域实现了变革性突破。设备端推理对隐私保护和效率至关重要,而GPU是目前最普及的设备端机器学习加速器。ML Drift是一个优化框架,它扩展了GPU加速推理引擎,使设备端能够运行参数量比现有模型多10至100倍的生成式AI工作负载。该框架解决了跨GPU应用开发的挑战,并确保在移动端与桌面/笔记本平台间的兼容性。相比现有开源GPU推理引擎,该框架实现了数量级性能提升。