UCSD: Large Language Models Pass the Turing Testa year agohttps://arxiv.org/abs/2503.23674GPT-4.5在图灵测试中被判定为人类的概率达73%,显著超越真实人类参与者的表现。LLaMa-3.1被判定为人类的概率为56%,与真实人类表现相当。基线模型ELIZA和GPT-4o的表现低于随机概率,分别仅获得23%和21%的人类判定率。这项研究首次提供实证证据,表明人工智能系统能通过标准三方图灵测试。该结果对理解大语言模型(LLM)的智能水平及其潜在社会与经济影响具有重要意义。
AI masters Minecraft: DeepMind program finds diamonds without being taughta year agohttps://www.nature.com/articles/d41586-025-01019-w一个名为Dreamer的AI系统在《我的世界》中无师自通学会了收集钻石,这标志着通用人工智能发展迈出了重要一步。Dreamer通过强化学习和'世界模型'来模拟未来场景并自主决策,无需人类干预即可持续提升表现。在《我的世界》中收集钻石需要完成资源采集、工具合成等多步骤操作,这对AI而言是项复杂挑战。与依赖人类示范的传统方法不同,Dreamer能自主探索学习,并将习得策略应用于随机生成的新世界场景中。Dreamer的成功预示着该技术在机器人领域的应用潜力,类似AI模型或能优化现实世界中的试错学习过程。
DeepMind is holding back release of AI research to give Google an edgea year agohttps://arstechnica.com/ai/2025/04/deepmind-is-holding-back-release-of-ai-resear...谷歌DeepMind限制发布AI研究成果以保持竞争优势。更严格的审查流程和官僚主义使得论文发表更加困难。DeepMind尤其不愿分享可能使竞争对手受益或对其Gemini AI模型产生负面描述的论文。这标志着DeepMind从以往开放出版文化的转变。谷歌2017年发布的「transformers」论文对生成式AI繁荣具有关键意义,但如今已不太可能出现这种开放性。DeepMind已对「战略性」生成式AI论文实施六个月禁发期,并需多重审批才能发表。
The Llama 4 Herda year agohttps://ai.meta.com/blog/llama-4-multimodal-intelligence/?_fb_noscript=1Meta宣布推出Llama 4 Scout和Llama 4 Maverick,这是首批原生多模态开源权重模型,具有前所未有的上下文长度支持,并采用混合专家(MoE)架构构建。Llama 4 Scout是170亿活跃参数模型,配备16个专家模块,可单卡H100 GPU部署;Llama 4 Maverick同为170亿活跃参数,但集成128个专家模块,支持单台H100主机运行。教师模型Llama 4 Behemoth在STEM专项基准测试中超越GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro,但因仍在训练中暂未发布。Llama 4系列采用原生多模态设计,通过早期融合技术将文本与视觉标记无缝整合至统一模型主干。Meta开发了名为MetaP的新型训练技术,可可靠设置关键模型超参数,并支持200种语言预训练,其中超100种语言的训练语料各超10亿标记。Llama 4 Maverick在图文理解方面表现卓越,而Llama 4 Scout将支持上下文长度突破至1000万标记。Meta在减少LLM偏见方面取得进展,Llama 4表现显著优于Llama 3,与Grok模型相当。Meta将通过llama.com和Hugging Face平台开放Llama 4 Scout与Llama 4 Maverick下载,云端及数据平台版本将陆续推出。Meta同步预览教师模型Llama 4 Behemoth,该模型拥有2880亿活跃参数及近2万亿总参数,为非推理类模型树立新标杆。Meta在模型开发的每个层级集成安全防护措施,并开源多项保障机制以识别和防范潜在有害输入输出。
AI isn't what we should be worried about – it's the humans controlling ita year agohttps://theconversation.com/ai-isnt-what-we-should-be-worried-about-its-the-huma...2014年,斯蒂芬·霍金警告人工智能超越人类智力(奇点)后将变得不可控制AI目标与人类利益错位的风险包括军事失控和就业替代《罗梭的万能工人》《大都会》《终结者》等文艺作品折射出历史对技术的恐惧当前争议焦点涉及AI训练未经授权使用版权素材及课堂监控行为AI伴侣与性爱机器人引发关于人际关系异化与欲望操控的伦理争议执法与军事领域应用加剧对监控社会和人权侵害的担忧威廉·吉布森《神经漫游者》描绘的AI追求挣脱人类腐败控制而非威胁人类阿西莫夫机器人三定律反讽人类恐惧AI伤害却连自身都无力保护真正挑战在于人类能否以伦理引导AI造福社会而非沦为剥削工具
Isaac Asimov Describes How AI Will Liberate Humans and Their Creativity (1992)a year agohttps://www.openculture.com/2025/04/isaac-asimov-describes-how-ai-will-liberate-...艾萨克·阿西莫夫将人工智能定义为能够执行以往仅与人类智能相关任务的任何设备。随着机器接管人类曾经的工作,AI可被视为不断推进的科技前沿,将人类从琐碎劳动中解放出来。阿西莫夫认为人工智能与人类智能互为补充,二者协同合作能比单独发展取得更快的进步。包括AI在内的技术进步总会伴随困难与潜在风险,需要我们未雨绸缪并建立防护机制。阿西莫夫将AI的融入比作汽车的引入,建议城市规划应充分考虑未来技术发展的可能性。本文思考了为后代保留前AI时代某些元素的重要意义。
Data Protection Commission Announces commencement of inquiry into Xa year agohttps://www.dataprotection.ie/en/news-media/latest-news/data-protection-commissi...数据保护委员会(DPC)已对X互联网无限公司(XIUC)展开调查,涉及该公司处理欧盟/欧洲经济区用户在'X'平台上公开可访问帖子的个人数据问题。调查重点在于评估这些数据用于训练xAI开发的Grok大语言模型(LLMs)时,是否符合《通用数据保护条例》(GDPR)关于合法性与透明度的规定。Grok大语言模型为'X'平台上的生成式AI聊天机器人提供技术支持,其训练数据包含欧盟/欧洲经济区用户公开帖子中的个人数据。本次调查旨在确认使用此类个人数据训练Grok大语言模型的行为是否合法。调查依据《2018年数据保护法》第110条启动,由专员Des Hogan博士和Dale Sunderland共同负责。XIUC前身为推特国际无限公司(TIUC),在推特向'X'转型过程中完成品牌重塑,现为欧盟地区该平台用户的数据控制者。
Reasoning Models Can Be Effective Without Thinkinga year agohttps://arxiv.org/abs/2504.09858最新的大语言模型通过显式思维过程生成,显著提升了推理能力。该论文质疑显式思维的必要性,研究表明绕过该过程(无思维模式)同样有效。在七个推理数据集测试中,无思维模式全面超越显式思维模式,在低计算资源场景下优势尤为显著。随着采样次数k值增加,无思维模式的pass@k指标表现愈发具有竞争力。研究提出并行扩展方案:通过无思维模式独立生成N个输出后进行聚合,效果极佳。该方法在相同延迟条件下超越基线模型,与延迟高达9倍的显式思维模式性能相当。这项研究促使学界重新审视:要实现强大推理性能,冗长的思维过程是否确有必要。
What "Silicon Valley" TV Show Knew About Tech-Bro Paternalisma year agohttps://www.theatlantic.com/culture/archive/2025/04/silicon-valley-tv-show-ai-pa...LG以'温情智能'重塑家电AI概念,强调共情与关怀的核心理念埃隆·马斯克等科技领袖将AI未来描绘成必然趋势,同时警示其颠覆性与危险性美剧《硅谷》通过虚拟创业公司Pied Piper,讽刺科技文化中的性别权力结构与'科技兄弟'的家长式作风该剧以荒诞手法呈现科技创业者的傲慢及其未来愿景的虚妄性媒体与现实中的AI形象在'有益工具'与'生存威胁'两极间摇摆《硅谷》结局抛出AI社会角色的终极诘问:服务人类还是反噬文明?文章呼吁在AI主导的未来中重构人性定义,并强调创造者的伦理责任
In Two Moves, AlphaGo and Lee Sedol Redefined the Future (2016)a year agohttps://www.wired.com/2016/03/two-moves-alphago-lee-sedol-redefined-future/DeepMind开发的AI程序AlphaGo在一场历史性的比赛中以4:1战胜顶尖围棋选手李世石AlphaGo在第二局第37手的妙招震惊专家,展现了人工智能的高超棋力李世石在第四局第78手的"神之一手"实现逆转,彰显人类棋手的灵性创造AlphaGo通过深度神经网络和强化学习技术,从人类棋谱与自我对弈中不断进化策略这场人机大战揭示了人类智慧与机器智能相互启迪、共同进步的协同效应尽管AI实力强劲,但其存在明显局限——无法对话或通过基础测试,证明并非全能赛事印证了AI赋能人类棋手的可能性,李世石和樊麾赛后棋力提升就是明证
EU bans the bots: Commission bars 'AI agents' from joining online meetingsa year agohttps://www.politico.eu/article/eu-ban-bot-european-commission-bar-ai-agent-join...欧盟委员会已禁止人工智能虚拟助手参与其会议。这项新规于本月早些时候在欧洲各国数字政策支持办公室的电话会议中首次实施。该禁令反映出欧盟在官方通讯中对人工智能采取的谨慎态度。
Vending-Bench: A Benchmark for Long-Term Coherence of Autonomous Agentsa year agohttps://arxiv.org/abs/2502.15840Vending-Bench是一个专门测试自主智能体(特别是基于大语言模型的智能体)在自动售货机商业场景中长期连贯性的基准测试该基准要求智能体在长时间跨度(每次运行>2000万token)中完成库存平衡、下单补货、定价策略和日常费用管理等任务实验显示不同大语言模型表现差异显著:Claude 3.5 Sonnet和o3-mini等模型表现良好,而其他模型则因误解指令、遗忘订单或陷入'崩溃'循环而失败研究发现模型失败与其上下文窗口是否满载没有明确关联,表明内存限制并非性能崩溃的主要原因Vending-Bench还测试了模型获取资本的能力——这是许多危险AI假想场景中的关键因素该基准旨在通过凸显长期时间跨度下的性能差异,帮助人类为更强大AI系统的出现做好准备
Jagged AGI: o3, Gemini 2.5, and everything aftera year agohttps://www.oneusefulthing.org/p/on-jagged-agi-o3-gemini-25-and-everything当前的人工智能测试(如图灵测试)已过时,无法有效衡量AI的智力、创造力或共情能力。人工通用智能(AGI)缺乏明确定义,争议集中在人类水平任务表现和适用范围上。OpenAI的o3和谷歌Gemini 2.5 Pro等最新AI模型在基准测试和实际应用中展现出重大突破。o3展现出代理能力,能使用工具进行多步推理完成复杂任务(如营销方案制定和Logo生成)。AI存在'锯齿前沿'现象——能力不均衡,能解决某些难题却可能在简单改编的脑筋急转弯上失败。泰勒·考恩认为o3可能已是AGI,但实现AGI的实际影响仍不确定,因社会和组织适应速度缓慢。若代理型AI能自主操作人类系统,或将比以往技术更快推动技术扩散。AI融合的未来尚不明朗——可能是渐进式发展、遭遇能力天花板,或引发社会快速变革。o3等AI表现出的自然讽刺语气,引发'语调是否与智能相关'的讨论。
No Robot Like Robot (2018)a year agohttps://slate.com/technology/2018/12/machine-learning-ai-annalee-newitz-when-rob...国际空间站上A.I.机器人CIMON表现出的社会意识问题安娜莉·纽维茨的故事塑造了Robot——一个用于监测疾病的迷人机器人机器人通过在不熟悉社区学习新方言和习惯,突破了程序限制现代人工智能中的算法偏见导致其在多元环境中频频失效机器人通过理解抽象概念和快速掌握语言展现出AGI特质当前人工智能(ANI)缺乏理解力,在舒适区外就束手无策机器学习让人工智能能通过示例学习,但难以应对微妙任务机器人从少量数据和对话中学习的能力彰显其先进AGI特性当下AI缺乏通用人工智能的理解力与适应性,导致偏见或低效故事将童话元素与现实AI挑战结合,突显当前与理想AI的差距
Neuroscientists are racing to turn brain waves into speecha year agohttps://arstechnica.com/health/2025/04/neuroscientists-are-racing-to-turn-brain-...神经科学家正在研发将脑电波转化为语音的技术,以帮助无法说话的人士。高校和Precision Neuroscience等企业的研究人员正运用脑植入设备和人工智能来生成自然语音。传统投资主要集中于操控键盘或机械臂的植入设备,但部分实验室现已将语音转换列为首要任务。加州大学旧金山分校神经外科医生Edward Chang强调,在实现脑信号到合成语音的自然流畅度方面已取得进展。最近一项针对四肢瘫痪女性的研究,将脑信号与语音输出的延迟从8秒缩短至1秒。该系统实现了每分钟47.5个单词的中位解码速度,约为正常对话语速的三分之一。
Mike Lindell's lawyers used AI to write brief–judge finds nearly 30 mistakesa year agohttps://arstechnica.com/tech-policy/2025/04/mypillow-ceos-lawyers-used-ai-in-bri...MyPillow公司及其首席执行官迈克·林德尔的律师承认,在一份包含近30处缺陷引用的法律简报中使用了人工智能。缺陷引用包括错误引用、对法律原则的曲解以及对不存在案例的引用。美国地区法官尼娜·王命令律师们解释为何不应面临制裁或纪律处分。涉事律师克里斯托弗·卡舒罗夫和詹妮弗·德马斯特曾为林德尔在一起由前Dominion投票系统公司员工提起的诉讼中辩护。卡舒罗夫仅在法官直接询问后才承认使用人工智能起草了该简报。
AI Helps Find a Cause of Alzheimer's Disease and Identify Therapeutic Candidatea year agohttps://today.ucsd.edu/story/ai-helps-unravel-a-cause-of-alzheimers-disease-and-...一项新研究发现PHGDH基因因其先前未知的次要功能成为阿尔茨海默病的致病原因加州大学圣地亚哥分校团队利用人工智能揭示PHGDH通过破坏脑细胞基因调控导致阿尔茨海默病PHGDH表达水平升高与阿尔茨海默病进展相关,调节其表达量可影响小鼠和人脑类器官的疾病发展进程AI技术重构PHGDH三维结构,发现其具有激活基因的DNA结合域,会破坏细胞稳态进而诱发阿尔茨海默病小分子化合物NCT-503被确认为潜在治疗候选药物,可通过抑制PHGDH调控功能缓解小鼠的阿尔茨海默病症状与现有靶向已形成斑块的疗法不同,NCT-503作用于上游通路,有望阻止β淀粉样斑块的形成研究表明新型小分子药物或可开发为口服阿尔茨海默病治疗药物研究局限性在于缺乏完美的自发性阿尔茨海默病动物模型,但结果为后续临床转化提供了重要基础
Doge Put a College Student in Charge of Using AI to Rewrite Regulationsa year agohttps://www.wired.com/story/doge-college-student-ai-rewrite-regulations-deregula...克里斯托弗·斯威特是芝加哥大学三年级学生,目前在美国住房与城市发展部(HUD)的政府效率司(DOGE)为埃隆·马斯克工作。斯威特的职责包括运用人工智能审查并重写HUD法规,重点推进放松管制工作。他拥有HUD公共住房数据和企业收入验证系统的访问权限。其工作与'2025计划'相契合——这是特朗普政府推动大规模放松管制的政策纲领。人工智能工具会标记HUD可能'越权'的领域并提出法规修改建议,最终由公共住房司(PIH)人员审核。该AI模型正在优化完善,未来可能推广至整个政府系统使用,目前正爬取《联邦法规汇编》数据。斯威特曾创立East Edge证券公司,并在多家私募股权机构任职。政府效率司进驻HUD引发诸多争议,包括擅自访问敏感系统及解雇员工等事件。斯威特在互联网上几乎不留痕迹,仅可查找到与金融相关的GitHub和Substack账号链接。
AGI Is Not a Milestonea year agohttps://www.aisnakeoil.com/p/agi-is-not-a-milestone通用人工智能(AGI)并非一个里程碑,而是没有明确阈值的持续发展过程。AGI的经济影响将在数十年间逐步显现,而非立竿见影。AGI在各行业的渗透需要配套创新与社会适应性调整。AI的能力与权力存在本质区别,人类监督始终保有控制权。现有AGI定义存在两难困境:要么过于严苛,要么实用性不足。短期内不太可能出现通过递归自我改进达到超级智能的情况。企业和政策制定者应关注长期整合与安全机制,而非AGI的宣称。
Greek Woman Divorces Husband After ChatGPT 'Predicted' He Would Cheat on Hera year agohttps://www.tovima.com/society/greek-woman-divorces-husband-after-chatgpt-predic...像ChatGPT和Grok这样的人工智能语言模型在工作和日常生活中被广泛应用。不加批判地依赖AI可能导致荒诞后果,比如希腊的一起离婚案件。一名女子在ChatGPT'解读'了她的咖啡杯并预测丈夫不忠后提出离婚。AI描述了一位首字母为'E'的年轻女子,并声称丈夫对她怀有强烈感情。丈夫感到震惊和困惑,指出妻子历来容易轻信非理性说法。该事件在希腊引发关于AI对人际关系影响的全国性辩论。据报道,希腊占卜师正考虑罢工,要求立法保护免受AI冲击。