Proof or Bluff? Evaluating LLMs on 2025 USA Math Olympiada year agohttps://arxiv.org/abs/2503.21934当前针对大型语言模型(如MathArena)的基准测试仅关注数值答案,却忽视了严谨的推理和证明生成能力。一项新评估显示,最先进的推理模型在2025年美国数学奥林匹克(USAMO)试题上表现糟糕,平均正确率不足5%。通过对推理过程的详细分析,研究者识别出常见错误模式及模型训练策略产生的不良伪影。该研究得出结论:现有大型语言模型无法满足严谨数学推理需求,突显了提升模型推理与证明生成能力的迫切性。
Evaluating Agent-Based Program Repair at Googlea year agohttps://arxiv.org/abs/2501.07531基于智能体的程序修复利用大语言模型(LLM),通过结合规划、工具使用和代码生成来自动修复复杂缺陷。该论文使用谷歌问题跟踪系统中的178个缺陷(78个人工报告+100个机器报告),在企业环境中评估了基于智能体的修复方案。类似SWE-Agent的智能体Passerine使用Gemini 1.5 Pro时,对机器报告缺陷的合理补丁率达到73%,对人工报告缺陷为25.6%。人工检查显示,43%的机器报告缺陷和17.9%的人工报告缺陷生成的补丁与真实解决方案语义等价。研究揭示了谷歌数据集与开源SWE-Bench在缺陷分布(语言多样性、规模、修改范围)上的显著差异。
Not all AI-assisted programming is vibe codinga year agohttps://simonwillison.net/2025/Mar/19/vibe-coding/氛围编程是一种新型编程方式,开发者高度依赖大语言模型生成代码,通常不会审查生成内容安德烈·卡帕西创造了'氛围编程'这个术语,用来描述开发者让大语言模型处理大部分编码任务的放手式编程氛围编程不同于负责任的AI辅助编程,后者要求在提交代码前进行审查和理解专业软件开发需要考虑性能、安全性和可维护性等因素,这些正是氛围编程常常忽视的氛围编程最适合用于低风险项目、原型设计或个人工具开发等错误影响较小的场景安全性和隐私性是氛围编程的主要隐患,在处理敏感数据或API时尤其需要注意氛围编程可以降低初学者的入门门槛,同时帮助资深开发者建立对大语言模型能力的直觉认知像Claude Artifacts这样的沙盒环境通过限制潜在危害,为氛围编程实验提供了更安全的方式文章倡导在编程中负责任地使用大语言模型,明确区分氛围编程与专业软件开发的区别
LLMs understand nullabilitya year agohttps://dmodel.ai/nullability-gentle/像ChatGPT、Claude和DeepSeek这样的大型语言模型(LLMs)可以在多个领域编写代码,使非技术用户也能进行编程。关于LLMs能否独立编写正确代码以及它们是否真正'理解'自己生成的代码,仍存在关键问题。LLMs的理解能力通过内部表征和'思维过程'来衡量,这些可以通过模型激活进行研究。代码属性(如变量是否可为空的'可空性')由于静态分析工具的存在,比自然语言概念更容易进行严格研究。实验表明,LLMs学会了推断可空性规则,且模型越大在复杂类型推断任务上表现越好。研究开发了'可空性探针'来测量模型内部状态,揭示了LLMs如何表示和推理可空变量。模型对可空性的理解会随着训练而提升,但较小的模型可能在持续训练后出现性能倒退。该研究为理解LLMs内部如何表征编程概念提供了见解,为未来研究更高层次的代码理解铺平了道路。
LLMs flip the script on technology diffusiona year agohttps://karpathy.bearblog.dev/power-to-the-people/大语言模型颠覆了传统自上而下的技术扩散模式,让个人比企业或政府获益更多。ChatGPT以4亿周活跃用户成为增长最快的消费级应用,在众多领域提供广泛的准专业知识。个人无需专业背景即可获得重要新能力(编程、法律、研究、分析、内容创作)。组织因复杂性、协调成本、遗留系统、安全合规和官僚惯性而获益有限。大语言模型的多功能性被其浅层性和易错性抵消,限制了对结构化组织的变革性影响。当前大语言模型性能高度普及且廉价,但未来规模扩张可能因付费获取优质模型而重现不平等。这场AI革命具有快速普及的特性,与科幻作品中政府秘密掌控AI的预测形成鲜明对比。未来已至且分布广泛,正以前所未有的方式赋能个体。
Vim is more useful in the age of LLMsa year agohttps://ja3k.com/blog/vimllm尽管最初有人认为大语言模型(LLM)会降低Vim的实用性,但它在LLM时代依然不可或缺。大语言模型擅长代码生成,而Vim在代码导航、文本复制和调试等核心场景中仍不可替代。在需要人工理解与修改代码的混合开发模式下,Vim的高效性使其价值倍增。大语言模型通过提供命令历史记录和按需生成复杂指令,反而降低了Vim的学习门槛。例如自动生成复制GitHub链接和Markdown区块的脚本,用极简操作实现效率飞跃。未来编程可能更倾向个性化定制开发,这将使Vim等高可定制工具的地位愈发重要。
LLMs Don't Reward Originality, They Flatten Ita year agohttps://ahrefs.com/blog/llms-flatten-originality/内容原创性在LLMs中不会被奖励,除非它成为共识的一部分。LLMs倾向于抹平新观点,将其吸收为通用知识而不给予适当归属。'LLM扁平化'概念描述了LLMs如何简化和总结内容,偏爱共识而非原创性。微观层面的LLM扁平化发生在主题层面,LLMs重塑知识以适配最权威的模式。宏观层面的LLM扁平化随时间发生,随着LLMs趋向主流信息,新观点的曝光度会降低。LLMs难以将新概念与其创造者关联,经常幻觉定义或忽略独特术语。提高可见性的实用策略包括明确标注观点、增加品牌提及以及广泛分发内容。原创性仍有价值,但需要重复传播和网络支持才能在AI驱动的搜索中获得关注。
Reasoning Models Can Be Effective Without Thinkinga year agohttps://arxiv.org/abs/2504.09858最新的大语言模型通过显式思维过程生成,显著提升了推理能力。该论文质疑显式思维的必要性,研究表明绕过该过程(无思维模式)同样有效。在七个推理数据集测试中,无思维模式全面超越显式思维模式,在低计算资源场景下优势尤为显著。随着采样次数k值增加,无思维模式的pass@k指标表现愈发具有竞争力。研究提出并行扩展方案:通过无思维模式独立生成N个输出后进行聚合,效果极佳。该方法在相同延迟条件下超越基线模型,与延迟高达9倍的显式思维模式性能相当。这项研究促使学界重新审视:要实现强大推理性能,冗长的思维过程是否确有必要。
LLMs Do Not Predict the Next Worda year agohttps://www.harysdalvi.com/blog/llms-dont-predict-next-word大语言模型最初通过预测序列中的下一个token进行训练,这个过程称为下一token预测目标。指令微调通过使用专为提示设计的数据集训练大语言模型,使其适应特定任务,从而提升零样本学习能力。基于人类反馈的强化学习(RLHF)是关键训练步骤,它使大语言模型不再局限于简单的下一token预测,而是优化输出以符合人类偏好。RLHF包含两个主要阶段:奖励建模(训练模型预测人类偏好)和近端策略优化(PPO),后者在保持模型原始行为的基础上调整参数以最大化奖励。大语言模型可视为一种智能体:其生成token的行为类似于棋类模型选择制胜步骤,目标都是最大化奖励。AI智能体的概念将大语言模型的token输出映射到现实世界行动,使其突破纯文本生成范畴,拓展了应用边界。值得注意的是,经过RLHF训练的大语言模型有时会产生看似优秀实则存在缺陷的输出,这种现象被称为奖励破解。大语言模型的训练机制与能力表明,它们不仅是下一token预测器,更是融合人类偏好与任务表现的复杂优化系统。
Should We Respect LLMs? A Study on Influence of Prompt Politeness on Performancea year agohttps://arxiv.org/abs/2402.14531研究探讨了在英语、中文和日语提示中礼貌程度对大型语言模型性能的影响不礼貌的提示通常会导致表现不佳,但过度礼貌并不总能改善结果最佳礼貌程度因语言而异,表明大型语言模型反映了人类文化规范和语言影响研究结果强调了在跨文化自然语言处理和大型语言模型应用中考虑礼貌因素的重要性
Teaching LLMs how to solid modela year agohttps://willpatrick.xyz/technology/2025/04/23/teaching-llms-how-to-solid-model.h...大语言模型(LLM)能够为简单的3D机械零件创建CAD模型,预计将快速提升能力。AI机械工程师可处理材料选择、制造设计和CAD模型优化等任务。基于现有CAD文件训练生成模型是极具前景的方向,当前研究集中在扩散模型和Transformer架构。大语言模型可通过OpenSCAD等程序化接口生成实体模型,充分发挥其代码生成优势。OpenSCAD允许用户编写渲染成实体CAD模型的脚本,特别适合LLM驱动的建模方式。大语言模型能运用机械工程通用知识,例如正确确定螺栓孔的尺寸。研究团队开发了评估流程,通过OpenSCAD测试LLM生成CAD模型的能力,将生成的STL文件与参考模型对比。几何评估指标包括体积差异、边界框对齐、倒角距离和豪斯多夫距离。Sonnet 3.5和Sonnet 3.7等前沿模型在CAD建模任务中展现出显著性能提升。AdamCad和Zoo.dev等初创公司正在开发文本转CAD产品,但初期评估显示LLM生成的OpenSCAD代码优于Zoo.dev的API。LLM驱动CAD建模的未来改进方向包括:增强空间推理能力、迭代调试工具和参数调整界面。预计GenCAD将在6-24个月内成为机械工程师的常用工具,长期来看可能彻底革新CAD软件生态。
The Future of MCPsa year agohttps://iamcharliegraham.substack.com/publish/post/161906169MCP(模型上下文协议)是连接外部数据源或应用程序与ChatGPT、Claude等大语言模型(LLM)的标准化API接口MCP使LLM能够获取实时数据、在网络上执行操作,其功能更接近智能代理而非静态聊天机器人现有两类主要MCP服务器:面向开发者的工具(如Cursor、Claude Code)和面向实际任务的网络操作工具(如预约活动、发送邮件)作者构建了两个实验性MCP服务器:GPT Learner(开发者工具)和连接betsee.xyz的预测市场MCP当前MCP存在用户体验粗糙、客户端支持有限、安全隐患及需手动安装等局限性MCP客户端(如ChatGPT、Claude)掌握着重要控制权,决定用户可见工具及响应呈现方式MCP预计将发展成类似搜索引擎与移动应用商店结合的框架,主流LLM提供商将充当守门人角色未来机遇包括MCP封装工具包、联盟购物引擎、MCP优先的内容应用及企业私有MCP解决方案针对特定行业(如旅游、人力资源)的垂直领域MCP客户端可能涌现作者预测多数用户将使用预装MCP的默认AI体验,而高级用户可能选择可定制的开源客户端
Docker Model Runner Brings Local LLMs to Your Desktopa year agohttps://thenewstack.io/docker-model-runner-brings-local-llms-to-your-desktop/Docker Model Runner是Docker Desktop 4.40针对Apple芯片版Mac推出的新测试功能,允许开发者在本地运行LLM等AI模型通过Docker Model Runner本地运行LLM可确保数据隐私、降低延迟,并因无需外部云API而减少成本该功能将LLM打包为开放容器计划(OCI)标准构件,支持使用熟悉的Docker CLI命令集成到CI/CD流程基于开源C++库llama.cpp实现无GPU的高效LLM部署与推理,使老旧硬件也能运行模型Docker正与Google、HuggingFace、高通等AI领军企业合作,扩展可供本地使用的高质量优化模型库未来计划包括扩展对Windows(支持GPU加速)等平台的支持,并开放开发者发布自定义模型Docker正在集成模型上下文协议(MCP)——连接AI代理与数据源/工具/应用环境的开放标准Docker MCP Catalog集中提供100多个主流厂商的MCP服务器,支持一站式发现、运行与管理Docker MCP Toolkit为企业级MCP工作流提供注册表权限管理、密钥处理等高级安全管控功能Docker致力于让AI集成无缝化,使开发者能像传统容器化工作流一样轻松构建、测试和部署AI应用
Naur's "Programming as Theory Building" and LLMs replacing human programmersa year agohttps://ratfactor.com/cards/naur-vs-llms彼得·诺尔在《编程作为理论构建》中提出,编程的本质是构建关于程序的'理论',而非单纯产出代码。根据吉尔伯特·赖尔的定义,大语言模型不具备理论构建能力——它们仅能消化并复现工作成果,无法掌握底层推理逻辑。诺尔强调,理解和修改大型程序需要构建者持续保持对程序的亲密认知,这种知识无法被简单传递。编程绝非文本生产活动,其核心在于对程序结构和设计意图的深刻理解与维护。大语言模型无法取代人类程序员,因为它们既不能发展必要的理论体系,也无法真正理解代码背后的语境。
Bad but common LLM criticismsa year agohttps://ritza.co/articles/gareth/bad-llm-criticisms/人工智能既被过度炒作又被低估,虽然讨论广泛但迄今观察到的实质性影响有限大语言模型输出结果差异很大,用户不满往往源于预期不符而非模型性能差有效使用大语言模型需要像写邮件那样构建详细提示语才能获得理想结果人工智能的定义不断演变,国际象棋和围棋等昔日基准如今已被视为小儿科当今大语言模型能完成曾经需要多年博士研究的任务,基于旧标准的批评已失去意义大语言模型和人一样会犯错,但这并不否定其价值'高级自动补完'的批评已经过时,大语言模型的能力远超简单自动补全功能大语言模型的改进速度已经放缓,指数级增长能否持续尚不明朗大语言模型几乎吸收了全部人类知识,未来如何从合成数据中学习成为新课题
When ChatGPT Broke an Entire Field: An Oral Historya year agohttps://www.quantamagazine.org/when-chatgpt-broke-an-entire-field-an-oral-histor...自然语言处理(NLP)经历了重大变革,尤其是随着大语言模型(LLM)的出现。2017年Transformer模型的提出是一个转折点,尽管其影响最初并未被充分认识。BERT和GPT模型打破了性能记录,引发了'基准测试热潮'并引发关于其能力的争论。2020年GPT-3的发布是关键节点,展示了大语言模型的潜力,甚至导致研究者出现存在主义危机。2022年ChatGPT的推出颠覆了整个领域,使得许多传统NLP研究方向过时,焦点转向LLM应用。该领域因大语言模型的伦理和实践影响产生分歧,围绕模型理解、规模效应和企业控制力展开激辩。研究者们正努力应对大语言模型的社会影响、技术局限性,以及NLP与AI的未来发展路径。
Llasa: Llama-Based Speech Synthesisa year agohttps://llasatts.github.io/llasatts/探讨语音合成中训练时计算量与推理时计算量的扩展规律提出LLaSA框架:采用单层VQ编解码器与类LLaMA的Transformer架构对齐大语言模型证明增加训练计算量可提升语音自然度与韵律模式通过验证器证实扩展推理计算量能增强情感表现力、音色一致性及内容准确性公开释放TTS模型(1B/3B/8B参数)与编解码模型的检查点及训练代码使用Ravdess等基准测试对比不同评估指标下的推理扩展效果在不同模型规模与训练数据量下评估文本理解与合成质量表现
LLMs for Engineering: Teaching Models to Design High Powered Rocketsa year agohttps://arxiv.org/abs/2504.19394研究者利用火箭模拟基准测试平台RocketBench,探索大语言模型在高端火箭设计中的应用测试两项设计任务:目标高度优化与精准着陆挑战前沿大语言模型展现出扎实的工程知识基础,但难以根据模拟结果迭代设计方案,表现始终低于人类水平经过强化学习训练的70亿参数模型,其表现超越最先进的基础模型和人类专家强化学习训练的大语言模型可成为复杂工程优化的有效工具,其应用范畴已超越软件开发领域
Reasons to Write More in an Age When Writing Means Lessa year agohttps://miloandthecalf.substack.com/p/three-reasons-to-write-more-in-an大语言模型(LLMs)已深刻改变互联网与专业写作领域,许多人正悄然利用它们提升工作效率。写作能促进思维的理解与清晰表达;过度依赖大语言模型写作可能导致人类思考能力的退化与思想关联性的丧失。通过在网络发表文章,个人能影响大语言模型等强大技术的发展轨迹。泰勒·考恩主张通过写作实现思想不朽,因为大语言模型能将当代智慧保存给后世。记录冷门或稀有知识可以丰富集体智慧,扩充大语言模型的知识储备。保存被遗忘的稀有信息将为未来历史学家与人工智能学习提供珍贵素材。写作是塑造思想、贡献集体知识的强大工具——即使个人贡献看似微小也意义深远。
Cell Mates: Extracting Useful Information from Tables for LLMsa year agohttps://www.gojiberries.io/cell-mates-extracting-useful-information-from-tables-...当前大语言模型缺乏有效编码表格数据(如调查数据)中知识的能力,只能处理已发布的统计摘要主要挑战在于寻找表格数据的有效表征方式——将每行数据转为句子的方法会丢失表格中大部分知识研究提出机械蒸馏技术,包括基于表格结构创建单变量、双变量和多变量摘要该方法需要理解数据收集过程与结构,明确可提出的问题类型,并生成机械化摘要和图表该技术流程可用于检索增强生成系统(RAG)和补充'世界数据',建议从哈佛Dataverse等科学数据仓库开始实施