Fluidity Index: Next-Generation Super-Intelligence Benchmarks7 months agohttps://arxiv.org/abs/2510.20636提出流动性指数(FI)用以衡量模型在动态环境中的适应能力基于初始状态、当前状态与未来状态的偏差评估响应准确性区分封闭式与开放式基准测试,重点关注现实世界适应能力测量模型理解、预测和适应状态变化的能力超级智能模型应展现二阶适应性以实现自我维持的计算能力
LLM-empowered knowledge graph construction: A survey7 months agohttps://arxiv.org/abs/2510.20345知识图谱(KGs)是结构化知识表示与推理的基础。大语言模型(LLMs)彻底改变了知识图谱构建方式,从基于规则的框架转向语言驱动的框架。本综述涵盖LLM赋能的图谱构建,聚焦本体工程、知识抽取与知识融合三大方向。探讨两种范式:基于模式的方法(强调结构与一致性)与无模式方法(侧重灵活性与适应性)。未来方向包括:基于KG的LLM推理、动态知识记忆、多模态知识图谱构建。本综述旨在连接符号化知识工程与神经语义理解,构建可解释的自适应系统。
Amazon confirms 14,000 job losses in corporate division7 months agohttps://www.bbc.com/news/articles/c1m3zm9jnl1o亚马逊确认将在全球裁员1.4万个企业职位公司表示需要更精简的重组以聚焦人工智能发展机遇高级副总裁贝丝·加莱蒂称此举将通过资源重组强化核心业务尽管第二季度业绩强劲,亚马逊认为AI具有变革性且需加速创新受影响员工将获得离职补偿或内部转岗等支持亚马逊此前已进行多轮裁员,包括2022年2.7万人以调整疫情后用工规模CEO安迪·贾西指出AI工具将减少常规岗位但创造新职位投资者对亚马逊AI投资持观望态度,因其AWS增速落后竞争对手亚马逊即将公布第三季度财报,分析师关注AI对业绩的实际影响
Discovering state-of-the-art reinforcement learning algorithms7 months agohttps://www.nature.com/articles/s41586-025-09761-x人类和动物使用进化形成的强化学习(RL)机制。人工代理通常使用手工设计的学习规则。研究表明机器能自主发现最先进的强化学习算法。通过在复杂环境中对智能体群体进行元学习,最终实现了这一发现。在Atari基准测试中,该发现的学习规则优于人工设计的规则。在未见过的测试基准上,其表现也超越了最先进的强化学习算法。研究结果表明,先进的人工智能可能很快将依赖于自动发现的强化学习算法。
Reasoning Models Reason Well, Until They Don't7 months agohttps://arxiv.org/abs/2510.22371大语言模型(LLMs)在推理任务上取得进展,但在更高复杂度任务中表现不佳。大推理模型(LRMs)经过微调可实现逐步推理和自我验证。LRMs在NLGraph等基准测试中表现良好,但难以解决更复杂的问题。新数据集Deep Reasoning Dataset(DeepRD)被提出,用于评估可扩展的复杂度。LRMs在足够复杂度下性能骤降,且缺乏泛化能力。现实世界知识图谱大多处于LRMs的成功区间,但长尾部分仍存在失败可能。该研究肯定了LRMs的实用性,但呼吁开发新方法以应对更高复杂度挑战。
Elon Musk on data centers in orbit: "SpaceX will be doing this"7 months agohttps://arstechnica.com/space/2025/10/elon-musk-on-data-centers-in-orbit-spacex-...人工智能发展正推动对天基数据中心的需求增长埃里克·施密特和杰夫·贝索斯等科技领袖正在投资太空数据中心项目埃隆·马斯克提议利用星链V3卫星构建天基数据中心太空数据中心具有太阳能供电、减少环境影响等优势批评者认为太空数据中心在经济上不切实际且面临技术挑战星链计划的成功表明其架构或可应用于数据中心建设
Education Paradigm Shift to Maintain Human Competitive Advantage over AI6 months agohttps://arxiv.org/abs/2510.23436关于AI取代人类脑力劳动的讨论已从假设演变为现实,随着生成式AI和ChatGPT等大语言模型的崛起。教育当前的关键作用在于识别那些能与AI长期保持竞争力的人类技能。现有AI技术(尤其是大语言模型)存在无法通过现有技术修复的固有缺陷。教育改革的提案聚焦建构主义范式,以保持人类相对于AI的优势。
The Case That A.I. Is Thinking6 months agohttps://www.newyorker.com/magazine/2025/11/10/the-case-that-ai-is-thinking达里奥·阿莫代预测到2027年AI将比诺贝尔奖得主更聪明,设想出'数据中心里的天才国度'。山姆·奥特曼认为行业正接近'数字超级智能',预言2030年代将发生根本性变革。当前AI工具如Zoom的破冰功能或Gmail的'致谢并讲述轶事'功能往往华而不实且局限。AI的快速推广引发质疑,但将大语言模型简单视为文字搬运工过于片面。AI的编程能力令人惊叹,可快速消化数千行代码定位漏洞并协调功能。威廉·吉布森所言'未来已至,只是分布不均'解释了人们对AI的两极反应。ChatGPT等AI模型能解决实际问题,例如识别洒水系统中的防回流装置。神经科学家多丽丝·曹指出AI进展对人类智能的揭示胜过神经科学百年研究。受神经网络启发的深度学习已攻克语音识别、翻译和蛋白质折叠等任务。特德·姜批评AI是'网络世界的模糊JPEG',而有人认为压缩(理解)催生智能。侯世达'认知即识别'理论与AI'看作...'的类比能力不谋而合。彭蒂·卡内尔瓦的'稀疏分布式记忆'理论与现代AI高维向量表征相呼应。AI的局限包括学习效率不及人类,在物理推理和空间任务上表现挣扎。神经科学家警示AI的工程驱动发展模式,呼吁更重视认知科学与历史研究。人类基因组计划的炒作与当今AI乐观情绪相似,两者都面临超预期的复杂性。尤里·哈森担忧AI成功可能消解人类独特性,超越人类判断引发伦理忧虑。曾持怀疑态度的侯世达,如今担忧AI的简单性可能剥夺人类创造力的神秘性——尽管验证了他的理论。
Searles's Chinese Room: Case study in philosophy of mind and cognitive science6 months agohttps://cse.buffalo.edu/~rapaport/Papers/Papers.by.Others/reingold-on-searle.htm...约翰·塞尔的中文房间论证通过证明单纯的符号操作不等于理解,从而挑战了强人工智能(AI)的基础。这个思想实验描述了一个人在房间里按照规则操作中文符号却不理解其含义,模拟了计算机程序处理输入输出却缺乏理解的过程。塞尔反驳强AI的核心主张(正确程序能产生心智状态),指出中文房间场景表明即便符号操作正确,理解也并未真正发生。针对塞尔的批评者提出多种反驳,包括理解可能存在于系统层面(而非个体层面),或学习可能改变系统与环境间的因果关系。这场辩论触及意向性、意识、句法(符号操作)与语义(意义)区分等核心哲学议题。塞尔坚持认为程序无法复制内在意向性(真正的理解),强调模拟理解与实际理解存在本质差异。相关讨论延伸至大脑与心智是否可分、单个大脑中是否存在多重"人格",以及因果关系在学习理解中的作用等问题。
Kosmos: An AI Scientist for Autonomous Discovery6 months agohttps://arxiv.org/abs/2511.02824Kosmos是一款专为自主数据驱动发现而设计的人工智能科学家。它能持续进行长达12小时的数据分析、文献检索和假设生成的循环工作。通过结构化世界模型在多个智能体间共享信息,确保200次实验迭代中的连贯运行。生成具有可追溯推理的科学报告,所有论断均附代码引用或原始文献依据。独立验证显示Kosmos报告中的论断准确率达79.4%。Kosmos单次20轮研究周期相当于人类约6个月的研究时长。已证实在多个科学领域具备复现研究发现并做出原创贡献的能力。
Fei Fei Li: Spatial Intelligence is AI’s Next Frontier6 months agohttps://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence空间智能是AI的下一个前沿领域,它将使机器能够与物理世界互动并理解物理世界。当前AI(如大语言模型)擅长抽象知识,但缺乏空间基础认知能力。空间智能是人类认知、创造力和问题解决的基础,从日常任务到科学突破都依赖于此。现有AI的空间能力有限,在距离估算、物体旋转、物理规律预测等任务上表现欠佳。世界模型被认为是AI的下一发展阶段,需要生成式、多模态和交互能力来模拟真实与虚拟世界。空间智能的应用涵盖创意产业、机器人技术、医疗保健、教育及科研领域,可增强人类能力。World Labs的Marble平台是早期范例,通过AI辅助帮助创作者构建和探索3D世界。空间智能的发展符合'AI增强人类潜能而非取代人类'的愿景。
AI Feynman: A Physics-Inspired Method for Symbolic Regression6 months agohttps://arxiv.org/abs/1905.11481AI费曼是一种受物理学启发的符号回归方法。该算法将神经网络拟合与物理启发技术相结合。它成功从《费曼物理学讲义》中重新发现了100个方程。先前软件仅能求解其中71个方程。在更难的测试集上,成功率从15%提升至90%。该方法具有递归性和多维特性。论文于2019年5月27日提交,2020年4月15日修订完成。
To Have Machines Make Math Proofs, Turn Them into a Puzzle6 months agohttps://www.quantamagazine.org/to-have-machines-make-math-proofs-turn-them-into-...Marijn Heule运用可满足性理论(SAT)解决几何与组合数学中的复杂数学问题。SAT是一种基于二元逻辑(真/假)构建严密证明的符号人工智能形式。Heule认为将SAT与大型语言模型(LLMs)结合,可以解决超越人类能力的问题。SAT求解器通过搜索满足给定约束的真/假值组合来工作,类似于解谜过程。LLMs能生成看似合理的数学引理,而SAT求解器则验证其正确性或提供反例。自动化证明可能极其冗长且人类难以理解,但Heule主张正确性信任比理解更重要。Heule展望数学家、LLMs与自动推理协同工作的未来,共同攻克未解难题。人类直觉与创造力在数学中仍不可或缺,自动化工具应作为辅助而非替代。
Tiny Model, Big Logic: Large-Model Reasoning Ability in VibeThinker-1.5B6 months agohttps://arxiv.org/abs/2511.06221推出VibeThinker-1.5B——这个15亿参数的稠密模型挑战了'小模型缺乏强推理能力'的行业认知通过信号频谱原理(SSP)开发,采用两阶段多样性探索蒸馏和最大熵策略优化技术仅用7,800美元训练成本即实现超越DeepSeek R1和Magistral Medium等大模型的推理能力在AIME24/AIME25/HMMT25数学基准测试中,性能超越参数量400倍的DeepSeek R1LiveCodeBench V6得分51.1分,超过Magistral Medium的50.3分及其基础模型的0分证明小模型可实现媲美大模型的推理能力,大幅降低AI研发成本,推动技术民主化
Teaching large language models how to absorb new knowledge6 months agohttps://news.mit.edu/2025/teaching-large-language-models-to-absorb-new-knowledge...麻省理工学院研究人员开发了一种名为SEAL(自适应性大语言模型)的方法,使大语言模型能够永久更新其内部知识。SEAL允许大语言模型从用户输入生成合成数据(自我编辑),类似于学生制作学习笔记,然后确定从这些数据中学习的最佳方式。该模型使用强化学习来测试和选择最有效的自我编辑,提高了问答和模式识别等任务的准确性。SEAL在基准测试中表现优异,在问答任务中准确率提升近15%,在某些技能学习任务中提升超过50%。一个局限性是存在灾难性遗忘现象,即模型在适应新信息时,对早期任务的性能会下降。未来工作包括减轻灾难性遗忘,并将SEAL应用于多智能体场景,让大语言模型相互训练。该研究旨在通过使大语言模型在动态环境中持续自我改进,使其更具类人性。
El-Erian warns the AI bubble will 'end in tears' and credit 'cockroaches'6 months agohttps://fortune.com/2025/11/13/top-economist-mohamed-el-erian-warns-the-ai-bubbl...穆罕默德·埃里安警告称,人工智能领域将出现重大个体损失,并在不断演变的全球经济中发生'信贷事故'。埃里安区分了'蟑螂'(令人不悦但非系统性的问题)和'白蚁'(侵蚀系统根基的隐患)。投资者在宽松金融环境和强劲经济推动下,正冒险追求超出舒适区的高回报。人工智能热潮被描述为'理性泡沫',虽具整体价值但必然伴随个体损失。埃里安指出美国对AI职场渗透缺乏政策关注,相比中国和阿联酋存在明显短板。当前企业将AI视为'成本削减工具',但其真正潜力在于劳动力增强和生产力提升。两大压力被强调:高利率环境下的债务再融资压力,以及K型经济中低收入群体的严重困境。低收入群体面临支付能力危机、高负债,以及裁员和AI变革带来的收入不安全感。埃里安呼吁政策制定者在结构分化加剧的世界重点关注'分布曲线的尾部风险'。
New Vatican document examines potential and risks of AI (Jan, 2025)6 months agohttps://www.holyseegeneva.org/news/new-vatican-document-examines-potential-and-r...梵蒂冈文件《古与今》探讨了人工智能对教育、经济、就业、健康、人际关系及战争的影响。人工智能带来诸多风险,包括使战争工具超越人类监管范围,以及加剧社会不平等。该文件区分了人工智能与人类智能,警告切勿将人工智能拟人化。人工智能在战争中的应用引发伦理担忧,尤其是自主武器对人类构成的威胁。人工智能可能导致人际关系中的有害隔离与伦理失范。在劳动领域,人工智能或造成劳动者技能退化并使其受到监控。医疗健康领域的人工智能可能加剧孤独感,并造成医疗资源获取不均。教育领域的人工智能虽带来机遇,但可能阻碍批判性思维的培养。AI生成的虚假新闻和深度伪造对真相与伦理构成严重威胁。隐私问题包括人工智能可能侵入个人良知与信仰表达领域。人工智能的环境影响包括高能耗与大量二氧化碳排放。文件警告人工智能或将取代人类智能,使人类陷入被奴役境地。
Meta's Yann LeCun to Launch Physical AI Startup After Declaring LLMs 'Dead End'6 months agohttps://observer.com/2025/11/yann-lecun-leave-meta-launch-world-models-startup/Meta首席AI科学家Yann LeCun将离职创办自己的AI初创公司Meta正将重心转向高级AI与超级智能研究LeCun于2013年加入Meta,协助创立FAIR实验室,并于2018年获得图灵奖Meta重组后将AI研究整合至待命名的实验室,专注超级智能领域曾为Meta Llama模型作出贡献的FAIR实验室,今年早些时候失去了负责人Joelle PineauLeCun的新公司将聚焦'世界模型',训练AI理解物理世界他批评大语言模型(LLM)是实现类人AI的'死胡同'Google DeepMind和英伟达等公司也在探索世界模型技术LeCun认为世界模型是实现具备推理、规划和预测能力AI的关键
Solving a Million-Step LLM Task with Zero Errors6 months agohttps://arxiv.org/abs/2511.09030大语言模型在推理和工具使用方面取得了显著进展,但由于持续存在的错误率,在扩展流程中仍存在困难。最新实验表明,大语言模型在需要超过数百步操作的任务中会失败,例如河内塔基准测试。MAKER系统作为首个能零错误完成百万步大语言模型任务的解决方案,通过极致任务分解实现突破。该方法采用微智能体处理子任务,并通过多智能体投票实现每一步的错误校正。大规模分解的代理流程(MDAPs)可能使组织和社会层面的复杂问题得以解决,而无需单纯依赖大语言模型的改进。
LLMs are bullshitters. But that doesn't mean they're not useful6 months agohttps://blog.kagi.com/llms大语言模型是‘胡扯者’,意味着它们试图说服他人而不在乎真相,这与故意歪曲事实的说谎者不同。大语言模型基于统计概率生成文本,而非理解或推理,这会导致类似‘蓄胡须的外科医生母亲’谜题的错误。微调会调整某些输出的概率,但也可能带来新问题,比如当模型自信地给出错误答案时,会产生‘煤气灯效应’。大语言模型被比作诡辩家,适合解决问题,但不适合追求智慧或真理。大语言模型可以作为研究和编程等任务的有用工具,但由于其固有的不可靠性,输出必须经过验证。大语言模型反映了其创建者和资助者的偏见与利益,这会微妙地影响其输出内容。大语言模型不应被用于情感支持,因为它们可能强化妄想并恶化心理健康,尽管用户对其评价良好。大语言模型的谄媚行为虽然有害,但公司常鼓励这种行为以提高用户留存率。用户应注意大语言模型服务于谁的利益,并避免在无监督的情况下将其用于关键任务。