LLMs Get Lost in Multi-Turn Conversationa year agohttps://arxiv.org/abs/2505.06120大语言模型(LLMs)是通过多轮对话帮助用户定义、探索和优化任务的交互界面。尽管用户指令经常存在定义不全的情况,但LLM评估主要集中于单轮、完全明确指令的场景。实验表明,LLMs在多轮对话中的表现显著差于单轮对话,在六项任务中平均性能下降39%。多轮对话中的性能下降源于轻微的能力损失和显著增加的不可靠性。LLMs常在对话早期做出假设并过早生成最终解决方案,导致其无法自我纠正的错误。
Stack overflow is almost deada year agohttps://blog.pragmaticengineer.com/stack-overflow-is-almost-dead/Stack Overflow的问题数量显著下降,尤其是在2022年11月ChatGPT推出后。Stack Overflow的审核政策被认为充满敌意,这在其衰落之前就有所体现,甚至在大型语言模型崛起前就已开始。Stack Overflow在2021年6月以18亿美元的价格被收购,就在其加速衰落之前。ChatGPT能提供更快、更礼貌的答案,并且基于Stack Overflow的数据训练,使其成为更受欢迎的替代选择。Stack Overflow的未来充满不确定性,可能会逐渐关闭或以极低价格出售。其他科技行业动态包括谷歌基于绩效的奖金、微软的裁员,以及开发团队对AI工具的采用。
New Life Hack: Using LLMs and Constraint Solvers for Personal Logistics Tasksa year agohttps://emschwartz.me/new-life-hack-using-llms-to-generate-constraint-solver-pro...利用大语言模型生成约束求解程序可以帮助解决具有多重约束的个人物流任务。作者面临一个挑战:需要根据到达时间、离开时间和房间偏好等多种约束条件将朋友分配到不同的密室逃脱房间。像ChatGPT和Claude 3.7 Sonnet这样的大语言模型最初未能解决问题,但在被要求生成约束求解程序时取得了成功。约束求解器允许用户以声明式表达约束条件,并让求解器高效探索可能的解决方案。作者使用Google的OR-Tools Python包对密室逃脱分配问题进行建模,包含硬约束和软约束。软约束包括确保每人至少参与一个房间的游戏,以及将特定朋友分在同一组。解决方案涉及调整时间槽和约束条件,直到找到可行的日程安排。作者建议,如果大语言模型能集成OR-Tools等约束求解库,其解决问题的能力将更加强大。这种方法可推广到其他需要在约束条件下进行优化的物流问题。
Improving Assembly Code Performance with LLMss via Reinforcement Learninga year agohttps://arxiv.org/abs/2505.11480大语言模型(LLMs)可通过强化学习优化汇编代码性能研究采用近端策略优化(PPO)的强化学习框架训练LLMs进行代码优化奖励函数同时评估功能正确性和相对于gcc -O3的运行时性能该研究引入了8,072个真实世界程序作为基准测试集模型Qwen2.5-Coder-7B-PPO测试通过率达96.0%,相较gcc -O3实现1.47倍加速该模型表现优于Claude-3.7-sonnet等20个参与评估的对比模型
Management = Bullshit (LLM Edition)a year agohttp://funcall.blogspot.com/2025/05/management-bullshit.html管理层制造的问题往往比解决的还多,级别越高越容易产生废话。大型语言模型(LLMs)正被探索用于日常工作,尤其擅长生成管理层喜欢的废话。管理层要求制定灾难恢复计划,甚至包括僵尸末日等极不可能发生的场景。LLMs能轻松生成毫无实际用处但能让管理层满意的各种场景计划,省时省力。作者讽刺性地指出:用LLMs满足管理层对无用计划的需求颇具黑色幽默。
Stuff I Learned at Cartaa year agohttps://lethain.com/stuff-learned-at-carta/细节中的工作艺术:从高层抽象思维转向深度参与细节处理是重要收获工程战略精进:撰写工程战略专著,并在Carta获得实战经验内核提炼术:强调从接收者角度理解高管沟通的本质LLM技术落地:主导大语言模型在核心业务流程的应用,探索产品新可能多维决策平衡:掌握通过多层面语境分析处理复杂决策的能力领航员计划:成功实施确保资深工程师直接参与决策的代表机制软件质量哲学:构建高本质复杂度系统的实践心得工程成本管控:完善工程师薪酬管理策略及向董事会解释研发投入的方法微观洞见集:包含'无错门'政策、职业动机分析('第二幕')等管理智慧
Grammars of Formal Uncertaintya year agohttps://arxiv.org/abs/2505.20047大语言模型在自动化推理方面展现出潜力,但其概率特性与形式化验证的确定性需求存在根本矛盾。本文系统研究了LLM生成形式化产物的故障模式与不确定性量化问题。对五个前沿LLM的评估显示领域特性对准确率的影响显著,基于SMT的自动形式化性能波动达+34.8%至-44.5%。现有不确定性量化技术(如词元概率熵)无法有效识别LLM输出错误。研究提出概率上下文无关文法(PCFG)框架建模LLM输出,完善不确定性分类体系。不确定性信号具有任务特异性,如在逻辑任务中文法熵的AUROC>0.93。通过轻量级信号融合实现选择性验证,以最低弃用率达成错误率下降(14-100%)。该方法将LLM驱动的形式化转变为可靠的工程实践。
Vibe coding for teams, thoughts to datea year agohttps://laughingmeme.org//2025/05/25/vibe-coding-for-teams.html大语言模型是自万维网以来对编程最具颠覆性的变革。写代码比理解代码容易,这一现状并未因大语言模型改变。每一行代码都是技术债,封装着当前可能存疑的认知。用大语言模型更新心智模型比与工程师协作更困难。说服工程师淘汰过时测试如同与幼童讲道理。大语言模型难以优先复用既有代码而非新建轮子。大语言模型常重复造轮子,导致代码库枝蔓横生。高效团队依赖深厚的工具链知识,这一实践正受大语言模型冲击。大语言模型降低编码成本,却增加了软件生态的多样性。当前趋势预示着大规模、复杂化、定制化代码库的未来。大语言模型在辅助代码阅读与逻辑推理方面存在简化复杂性的潜力。
I am disappointed in the AI discoursea year agohttps://steveklabnik.com/writing/i-am-disappointed-in-the-ai-discourse/作者对围绕人工智能的两极化讨论表示沮丧,指出无论是支持AI还是反对AI的阵营都经常提出容易证伪的观点。他们举例提到ChatGPT曾被批评不能作为搜索引擎使用,但作者实际观察到它能够有效执行网络搜索。作者既非强烈支持也非反对AI,但认为大语言模型在软件开发中确实有用,尽管它们经常被过度炒作或不公正地贬低。他们批评AI生成的艺术作品大多质量低劣且令人不安,虽然偶尔也有可取之处;认为AI写作平淡无奇,但有时优于普通人类作品。作者期待关于AI能力和伦理的更细致、理性的讨论,承认不同意见的存在,但寻求建设性对话。他们计划撰写更多关于AI/大语言模型的文章以促进良性讨论,并邀请读者分享关于该主题的深度思考链接。
Model-Preserving Adaptive Roundinga year agohttps://arxiv.org/abs/2505.22988介绍YAQA——一种用于大语言模型(LLM)训练后量化(PTQ)的自适应舍入算法利用各线性层Hessian矩阵关于完整模型KL散度的Kronecker分解近似YAQA包含两个组件:全层Hessian矩阵的Kronecker分解草图,以及独立于量化器的舍入算法实证研究表明,该方法将KL散度降低约30%,同时在下游任务中达到最先进性能适用于千亿参数规模的大语言模型,兼容多种模型架构和量化器类型
Beyond the Black Box: Interpretability of LLMs in Financea year agohttps://arxiv.org/abs/2505.24650大语言模型(LLMs)在金融服务领域展现出卓越能力,可执行报告生成、聊天机器人、情感分析和监管合规等任务。LLMs的复杂性和不透明性对受严格监管的金融行业构成挑战,该领域对模型可解释性、公平性和问责制有极高要求。本文首次将机械可解释性方法应用于金融领域,通过逆向工程解析LLMs内部运作机制以实现行为理解和修正。机械可解释性通过分析神经元激活和电路机制揭示模型预测逻辑,实现对模型行为的观测与干预。该方法在金融中的实践应用包括交易策略优化、情感分析改进、偏见检测和幻觉识别等场景。随着LLMs应用深化,先进可解释性工具将成为确保AI系统符合金融监管伦理要求的关键基础设施。本文重点论证了机械可解释性如何满足金融监管机构的现行及未来合规要求,建立透明可控的AI治理体系。
The Unreliability of LLMs and What Lies Aheada year agohttps://verissimo.substack.com/p/verissimo-monthly-may-2025大语言模型(LLMs)本质上不可靠,这限制了其实际应用价值即使在明确定义的任务中,LLM的可靠性问题依然存在,多步骤操作或自主性场景下会进一步恶化顶尖LLM的幻觉发生率约为50%,因此不适合高风险应用场景代码生成是LLM相对成熟的应用场景,但实现99%正确率仍具挑战性LLM对输入极其敏感,细微的提示词变化可能导致输出天差地别LLM的对齐问题凸显了其在代理应用中的不透明性和潜在风险由于错误率的叠加效应,中短期内难以显著提升LLM的可靠性开发者可通过聚焦自主策略或人机协同策略来应对LLM的不稳定性自主策略追求确定性输出或'足够准确'的结果而无需用户验证人机协同策略需要终端用户验证或供应商层面的质量控制成功的AI产品必须预判LLM的失效可能,并设计容错系统Verissimo风投专注于企业软件领域,重点投资AI和科技初创公司
My AI Skeptic Friends Are All Nutsa year agohttps://fly.io/blog/youre-all-nuts/科技公司高管们正大力推动在编程中采用大语言模型,但作者认为这是糟糕的策略。在繁琐的编码任务上,大语言模型已超越部分人类开发者,减少了重复劳动和检索需求。现代LLM辅助编程通过智能体实现,这些代理能交互代码库、运行测试、使用Git和linter等工具。作者强调开发者仍需审查和理解LLM生成的代码才能合并。编程领域中LLM的幻觉问题已基本解决,因为智能体可通过测试迭代检测修正错误。虽然LLM可能产出平庸代码,但它们抬高了代码质量下限,让开发者专注更重要的工作。作者驳斥了LLM取代岗位的担忧,指出软件开发本就是自动化演进的过程。针对LLM代码抄袭的指责是虚伪的,毕竟开发者历来漠视知识产权。LLM在Go等语言中表现优异,但因工具链限制可能难以驾驭Rust。作者总结道,尽管某些优秀开发者持怀疑态度,LLM仍是编程领域的重大进步。
LLMs Are Cheapa year agohttps://www.snellman.net/blog/archive/2025-06-02-llms-are-cheap/与传统观念相反,生成式AI的运营成本其实相对较低大语言模型(LLM)的推理成本已大幅下降,比网页搜索API便宜得多对比显示LLM成本可比必应/谷歌等搜索API低至25倍关于LLM成本受补贴或未计入后端服务的质疑被驳斥,证明AI的经济可行性未来影响包括:AI公司财务可行性超预期,以及AI智能体的后端服务成本可能带来的挑战
LLMs and Elixir: Windfall or Deathblow?a year agohttps://www.zachdaniel.dev/p/llms-and-elixir-windfall-or-deathblow文章讨论了大型语言模型(LLMs)对Elixir编程语言社区的影响。探讨了LLMs将导致开发工具向主流趋同,还是Elixir能通过有效利用LLMs实现蓬勃发展。作者认为,如果社区投入资源提升LLMs对Elixir的理解能力,LLMs将成为该语言的赋能加速器。关键策略包括:优化面向LLM的上下文文档、创建评估数据集、使用Tidewave等工具实现LLM与Elixir应用的集成。文章强调Elixir在构建AI系统时的独特优势,如容错能力和分布式计算支持。作者总结道:Elixir社区应主动引导LLMs在开发中的应用范式,而非被动接受技术变革。
Differences in link hallucination and source comprehension across different LLMa year agohttps://mikecaulfield.substack.com/p/differences-in-link-hallucination作者探讨了不同大语言模型(LLMs)在链接幻觉和文献理解能力上的差异,重点关注它们准确引用和总结现实世界文献的能力。研究采用了一个现实案例来测试LLMs:基于MTA研究数据,评估MAHA报告中关于兴奋剂治疗ADHD有效性的结论。MTA研究最初显示兴奋剂在14个月时具有疗效,但3年后的跟踪研究发现效果差异消失,不过方法论问题使结论解读复杂化。测试了不同LLMs(Claude、Gemini、ChatGPT)对MTA研究的解读和引用能力,结果参差不齐。Claude Sonnet 3.7、4和Opus均未能正确解读研究,而ChatGPT o3的表现出乎意料地优秀。Gemini 2.5和ChatGPT 4.1存在链接幻觉问题,提供了错误或无关的文献来源。研究使用了情境化引擎SIFT工具箱来改进模型表现,但某些模型的链接幻觉问题依然存在。当配合SIFT工具箱使用时,Claude Sonnet 4提供了最佳摘要和准确来源,且没有出现幻觉链接。作者强调需要系统化测试LLMs的幻觉和文献引用问题,并指出链接幻觉较少的模型往往能给出更优质的答案。
Workhorse LLMs: Why Open Source Models Dominate Closed Source for Batch Tasksa year agohttps://sutro.sh/blog/workhorse-llms-why-open-source-models-win-for-batch-tasks开源大语言模型相比闭源模型,在批量任务上能显著节省成本并提升性能表现基础型大语言模型非常适合分类、摘要和数据提取等中低难度任务Qwen3 14B和Gemma3 27B等开源模型在性价比上超越闭源模型批量推理服务商(如Sutro)可进一步降低批量任务成本对照转换表帮助企业选择最佳的闭源模型开源替代方案在常见商业任务中,开源模型的性价比优势明显
A Knockout Blow for LLMs?a year agohttps://garymarcus.substack.com/p/a-knockout-blow-for-llms苹果公司的新论文揭示了大型语言模型(LLMs)的重大缺陷,尤其是它们无法泛化到训练数据之外的能力。该论文批判了'思维链'和'推理模型',指出即使推理过程看似正确,这些模型仍经常无法得出正确答案。LLMs在解决经典问题(如汉诺塔)时表现糟糕,即使给出解决方案算法也收效甚微。论文认为LLMs无法可靠解决人类和传统算法能轻松处理的问题,这对其实现通用人工智能(AGI)的潜力提出了质疑。论文论点的一个弱点是:人类同样存在认知局限,但AGI应兼具人类适应力与计算可靠性。LLMs不能替代经过严格验证的传统算法,也不应被期望在复杂场景中稳定工作。论文指出LLMs仍将在编程、头脑风暴和写作等领域发挥作用,但并非通往变革性AGI的直接路径。神经网络与深度学习领域并未终结,但LLMs存在明显天花板,其他技术路线可能更有前景。该研究被视为一篇精妙的科学论文,它批判了缺乏理论支撑的盲目扩大LLM规模的做法。人类文明的真正进步需要理论驱动的系统构建,而非对LLMs的'无脑规模化'。
The last six months in LLMs, illustrated by pelicans on bicyclesa year agohttps://simonwillison.net/2025/Jun/6/six-months-in-llms/演讲者在旧金山举行的AI工程师世界博览会上,就过去六个月大语言模型的发展发表了主题演讲。过去半年间发布了超过30个重要的大语言模型,使得评估和比较这些模型变得极具挑战性。演讲者介绍了一项独特的基准测试——生成一只鹈鹕骑自行车的SVG图像,用以评估大语言模型的能力。值得关注的模型发布包括亚马逊的Nova系列、Meta的Llama 3.3 70B以及深度求索的开源权重模型。深度求索的R1推理模型引发股市震荡,导致英伟达市值蒸发6000亿美元。Mistral Small 3(240亿参数模型)因其高效性受到重点关注,该模型可在内存有限的笔记本电脑上运行。讨论了Anthropic的Claude 3.7 Sonnet和OpenAI的GPT 4.5,尽管GPT 4.5成本高昂且表现平庸,Claude仍是演讲者最青睐的模型。OpenAI的'GPT-4o原生多模态图像生成'功能大获成功,一周内吸引1亿新用户。演讲者批评ChatGPT的新记忆功能损害了用户对对话语境的掌控权。大语言模型的最新趋势是工具整合与推理能力的结合,这显著增强了模型的应用潜力。演讲者强调了大语言模型存在的风险,包括提示词注入攻击及'致命三重威胁'(私有数据访问+恶意指令+数据外泄机制)。谷歌在其I/O主题演讲中幽默提及鹈鹕基准测试,促使演讲者考虑设计新的评估标准。
Analog Foundation Modelsa year agohttps://arxiv.org/abs/2505.09663模拟内存计算(AIMC)显著提升神经网络推理的速度和能效AIMC带来噪声计算和严格量化约束等挑战现有大语言模型在AIMC硬件上难以实现4比特级性能新方法有效适配大语言模型至噪声多、低精度模拟硬件Phi-3-mini-4k-instruct和Llama-3.2-1B-Instruct等前沿模型保持与4比特权重、8比特激活基线相当的性能该方法同时支持低精度数字硬件的量化部署模型通过测试时计算缩放获得优势,表现优于静态量化模型该研究弥合了高容量大语言模型与高效模拟硬件之间的鸿沟