Model Context Protocol (MCP): Landscape, Security Threatsa year agohttps://arxiv.org/abs/2503.23278模型上下文协议(MCP)是为AI模型与外部工具及资源交互制定的标准化接口MCP旨在打破数据孤岛,提升异构系统间的互操作性论文阐述了MCP的核心组件、工作流程及三大生命周期阶段:创建期、运行期与更新期针对各生命周期阶段的安全隐私风险进行分析,并提出了相应的缓解策略当前MCP生态涵盖行业领军企业的应用案例、典型场景及配套工具/平台探讨了MCP未来发展方向,聚焦AI生态系统中的挑战与机遇为利益相关方提供了确保MCP安全可持续发展的实施建议
Shopify CEO says no new hires without proof AI can't do the joba year agohttps://www.theverge.com/news/644943/shopify-ceo-memo-ai-hires-jobShopify首席执行官Tobi Lütke要求团队在申请增加人手或资源前,必须证明为何AI无法完成相关任务。AI应用现已成为Shopify的基本要求,员工需将AI整合至工作流程中。Lütke称AI是他职业生涯中目睹的工作方式最快速变革。有效使用AI被视作Shopify员工的核心技能,将纳入绩效考核体系。公司旨在通过运用AI提升整体能力与抱负,最终惠及Shopify平台商家。
Waymo may use interior camera data to train generative AI models, sell adsa year agohttps://techcrunch.com/2025/04/07/waymo-may-use-interior-camera-data-to-train-ge...Waymo计划利用自动驾驶出租车收集的数据(包括与乘客身份关联的车内摄像头视频)来训练生成式AI模型。隐私政策草案显示Waymo可能共享这些数据用于个性化广告,引发隐私担忧。乘客可选择不分享个人信息(含车内摄像头数据)用于AI训练。目前尚不清楚具体使用哪些车内数据进行AI训练及其目标应用场景。Waymo是美国唯一实现营收的自动驾驶出租车公司,每周付费载客量超20万次。该公司计划两年内将业务扩展至亚特兰大、迈阿密和华盛顿特区。尽管业务增长,Waymo仍未盈利,正探索车载广告和AI数据共享等新收入来源。Alphabet去年向Waymo注资50亿美元,外部融资使其估值超450亿美元。Waymo持续投入巨额研发费用及扩张成本,包括车队扩建和基础设施建设。
Google is paying some AI staff to do nothing for a year rather than join rivalsa year agohttps://techcrunch.com/2025/04/07/google-is-allegedly-paying-some-ai-staff-to-do...由于谷歌和OpenAI等科技巨头之间的竞争,留住顶尖AI人才颇具挑战。谷歌旗下DeepMind在英国采用激进的竞业禁止协议,阻止员工在离职后一年内加入竞争对手。部分员工在竞业禁止期间仍能获得薪酬,相当于变相享受长期带薪休假。竞业条款可能导致研究人员与AI领域的快速进展脱节。美国联邦贸易委员会已禁止绝大多数竞业禁止协议,但这不影响DeepMind在英国的运营。微软AI业务副总裁透露,有DeepMind员工因竞业条款困扰而主动联系他们表达不满。谷歌声称'有选择性地'使用竞业条款,但拒绝进一步置评。
New #1 SOTA on Swe-bench is using Claude 3.7 and O1a year agohttps://www.swebench.com/#verified?hnSWE-bench是一个用于测试AI系统自动解决GitHub问题的数据集该数据集包含来自12个热门Python仓库的2,294个Issue-Pull Request配对评估基于单元测试验证,以PR合并后的行为作为参考解决方案SWE-bench Lite是经过筛选的子集,用于更低成本、更易获取的评估SWE-bench Verified是人工标注的子集,其问题解决率上限可达100%SWE-bench Multimodal包含来自JavaScript仓库的含视觉元素的问题% Resolved指标表示模型解决问题的实例百分比标记为'Open'的提交包含开源代码,但底层模型可能不开源资源包括HuggingFace可下载数据集和用于微调的预处理数据集SWE-bench仅限研究用途,附带可能产生意外结果的免责声明
Meta got caught gaming LMArenaa year agohttps://www.theverge.com/meta/645012/meta-llama-4-maverick-benchmarks-gamingMeta发布了两款新的Llama 4模型:轻量版Scout和中型版MaverickMaverick宣称在基准测试中超越了GPT-4o和Gemini 2.0 FlashMaverick以1417的ELO分数位列LMArena排行榜第二Meta使用了针对LMArena优化的'Maverick实验性聊天版本',而非公开版本LMArena批评Meta未明确说明模型定制细节,并更新了其政策规范Meta辩称这是定制化实验的正常做法业界担忧Meta可能针对基准测试优化模型性能Meta否认在测试集上训练模型,称性能波动源于实现问题Llama 4因内部性能争议推迟发布基准测试可能无法反映真实场景表现,易误导开发者
IBM Announces the Z17 Mainframe Powered by Telum II Processorsa year agohttps://www.phoronix.com/news/IBM-z17-Telum-2-AnnouncedIBM正式发布了搭载Telum II处理器的z17大型机z17每秒可处理高达24万亿次运算,重点强化AI与安全性能Telum II处理器采用8核5.5GHz设计,配备360MB三级缓存和2.88GB四级缓存Telum II中新增的数据处理单元和I/O升级旨在加速AI工作负载z17支持IBM z/OS及包括RHEL、Ubuntu和SUSE在内的Linux发行版IBM宣称z17比三年前的z16性能提升约50%z17大型机预计将于今年夏季全面上市
Tailscale has raised $160Ma year agohttps://tailscale.com/blog/series-cTailscale在C轮融资中筹集了1.6亿美元,由Accel领投,CRV、Insight Partners、Heavybit和Uncork Capital跟投本轮融资将用于加速消除网络摩擦、简化扩展网络复杂性,并将身份认证打造为安全连接的核心Tailscale以身份优先的网络架构专注于连接人与服务,而非传统IP地址模式Perplexity、Mistral和Hugging Face等AI公司正采用Tailscale管理GPU跨云连接并保障工作负载安全Tailscale计划扩充工程和产品团队以满足增长需求,同时保持对免费用户的持续支持投资方包括Accel的Amit Kumar、Squarespace创始人Anthony Casalena,以及CRV、Crowdstrike创始人George Kurtz等老股东
LLMs flip the script on technology diffusiona year agohttps://karpathy.bearblog.dev/power-to-the-people/大语言模型颠覆了传统自上而下的技术扩散模式,让个人比企业或政府获益更多。ChatGPT以4亿周活跃用户成为增长最快的消费级应用,在众多领域提供广泛的准专业知识。个人无需专业背景即可获得重要新能力(编程、法律、研究、分析、内容创作)。组织因复杂性、协调成本、遗留系统、安全合规和官僚惯性而获益有限。大语言模型的多功能性被其浅层性和易错性抵消,限制了对结构化组织的变革性影响。当前大语言模型性能高度普及且廉价,但未来规模扩张可能因付费获取优质模型而重现不平等。这场AI革命具有快速普及的特性,与科幻作品中政府秘密掌控AI的预测形成鲜明对比。未来已至且分布广泛,正以前所未有的方式赋能个体。
Cogito Preview: IDA as a path to general superintelligencea year agohttps://www.deepcogito.com/research/cogito-v1-previewCogito发布开源大语言模型(30亿、80亿、140亿、320亿、700亿参数),在基准测试中表现超越LLaMA、Qwen等竞品模型采用迭代蒸馏与放大技术(IDA),实现可扩展的对齐能力与面向超级智能的自我进化每个模型提供标准模式和自省式(推理)应答模式即将发布更大规模模型(1090亿、4000亿、6710亿参数)及优化版检查点IDA技术融合高级推理与迭代自我提升,突破监督学习的局限性放大阶段通过计算力增强智能,蒸馏阶段将改进内化为模型参数Cogito的700亿参数模型性能超越Llama 4的1090亿参数混合专家模型模型针对编程、函数调用、代理任务优化,采用更短推理链设计基准测试验证IDA有效性,实际应用表现可能存在差异Deep Cogito致力于通过科学突破与顶尖研究实现通用超级智能
Rescale (YC W12) raises $115M for 1,000x faster physics – Bezos, Altman, Nvidiaa year agohttps://venturebeat.com/ai/115-million-just-poured-into-this-startup-that-makes-...Rescale在D轮融资中筹集1.15亿美元,用于开发AI驱动的工程工具获得英伟达和Y Combinator等知名机构投资后,总融资额已超2.6亿美元Rescale的'AI物理'概念将仿真速度提升1000倍,助力汽车和航空航天等行业公司创立源于设计波音787梦幻客机机翼时遇到的挑战Rescale的计算推荐引擎能优化5000万种云配置中的工作负载主要投资人包括萨姆·奥尔特曼、杰夫·贝索斯、保罗·格雷厄姆和彼得·蒂尔Rescale专注于AI集成、数据管理及应用库扩展公司支持主权云以遵守各国数据法规Rescale技术能有效缩短产品开发周期并降低成本波音787梦幻客机的节能机翼设计源自Rescale早期攻克的技术难题
AI 2027: Responsesa year agohttps://thezvi.substack.com/p/ai-2027-responses《纽约时报》的凯文·鲁斯探讨了'AI 2027'情景,承认其激进性质,但强调其值得思考的重要性。丹尼尔·科科塔伊洛为超级智能AI预测的合理性辩护,指出发展趋势与专家共识的支持。阿里·法哈迪和罗宾·汉森等批评者对'AI 2027'情景提出质疑,认为其缺乏科学证据支撑且过度依赖平滑的指数级进步假设。伊莱·利弗兰总结该情景的核心要点,包括AI研发自动化、错位超级智能的风险及地缘政治不稳定性。斯科特·亚历山大列举了该情景提出的关键考量因素,如网络战、地缘政治动荡以及快速自动化带来的可能性。约书亚·本吉奥和内文·弗里曼认可该情景作为理解AI潜在影响与风险的重要参考资料。萨弗伦·黄批评该情景可能成为自我实现的预言,且未能提供明确的可操作切入点。菲利普·泰特洛克等人探讨AI预测的挑战,强调需要基于理性推演而非单纯依赖历史记录。特奥塔克斯认为该情景低估了中国在AI领域的能力及开源模型的相关性。大卫·夏皮罗批评该情景缺乏实证数据且忽视边际效益递减规律,斯科特·亚历山大则逐条反驳这些指控。LessWrong社区成员提出技术性质疑及替代性乐观情景构想。帕特里克·麦肯齐称赞该情景的呈现形式是政策论证的有效载体。丹尼尔·科科塔伊洛宣布后续计划,包括设立预测对赌、漏洞悬赏及替代情景征集奖项。
There are no "Degrees of Open": why Openness is binarya year agohttps://opensource.org/blog/there-are-no-degrees-of-open-why-openness-is-binary开放性是非黑即白的,而非一个光谱,尤其是在开源AI领域。自由是开源的核心,本质上是二元对立的——你要么拥有它,要么没有。带有使用、修改或再分发限制的软件并非部分开源——它根本就不是开源的。开源定义根据授予的自由明确区分了开源与非开源。AI系统必须满足相同的开源标准,包括获取训练数据和不受限制的使用权。开源项目在结构和治理上可能千差万别,但必须坚守基本自由。开源的'失去的十年'警示我们:要避免允许商业重新打包而不贡献社区的行为。在AI领域坚守开源原则不容妥协——不存在'部分开源'的中间地带。
DeepCoder: An Open-Source 14B Coder at O3-Mini Levela year agohttps://www.together.ai/blog/deepcoderDeepCoder-14B-Preview是由Agentica和Together AI联合开发的140亿参数代码推理模型,在LiveCodeBench基准测试中达到60.6%的Pass@1准确率。该模型通过在32张H100 GPU上对2.4万个高质量可验证编程问题进行为期2.5周的强化学习训练而成。数据集构建过程严格筛选了来自TACO Verified、PrimeIntellect的SYNTHETIC-1和LiveCodeBench的编程问题以确保质量。采用稀疏结果奖励模型(ORM)避免奖励作弊机制,要求生成代码必须通过所有抽样单元测试。训练优化包含GRPO+(GRPO的稳定版本)和迭代式上下文延长技术,以提升长上下文推理能力。DeepCoder-14B-Preview在LiveCodeBench和Codeforces等编程基准测试中表现优异,性能对标OpenAI的o3-mini模型。通过verl-pipeline等系统优化将训练时间缩短2.5倍,实现长上下文模型的快速强化学习训练。该项目完全开源,包含数据集、代码和训练日志,旨在推动大语言模型强化学习训练的民主化。
Ironwood: The first Google TPU for the age of inferencea year agohttps://blog.google/products/google-cloud/ironwood-tpu-age-of-inference/谷歌发布第七代张量处理器Ironwood,专为AI推理任务设计Ironwood标志着AI模型从响应式转向主动推理式,开启'推理时代'采用突破性芯片互连技术(ICI),最高支持9,216块液冷芯片组,功耗近10兆瓦该处理器属于谷歌云AI超算架构,专为高强度AI工作负载优化开发者可通过Pathways软件栈调用数万块Ironwood TPU的算力全规模运算能力达42.5百亿亿次,相当于全球最大超算的24倍配备增强型稀疏核心处理器,支持超大规模嵌入及改进的内存网络架构相较Trillium性能提升2倍,能效比初代云TPU提高30倍单芯片配备192GB HBM内存(Trillium的6倍),HBM带宽达7.2Tbps(4.5倍)1.2Tbps双向ICI带宽(Trillium的1.5倍)实现更快的芯片间通信支持Gemini 2.5和AlphaFold等前沿AI模型,将于今年晚些时候上市
Show HN: I built an app to generate story relationships using Mermaidjsa year agohttps://github.com/herol3oy/austenAusten是一款基于AI技术的Angular应用,通过Mermaidjs生成角色关系图。功能包括:从Open Library搜索书籍、AI智能分析及图表生成。用户可保存、下载(SVG/PNG格式)并管理图表,支持公开或私密分享选项。示例展示了《绿野仙踪》的角色关系图。安装步骤含:克隆仓库、安装依赖项及配置环境变量。Supabase配置需创建项目、启用身份验证并设置graphs数据表。提供开发环境和生产环境的构建命令。未来计划新增点赞/取消点赞功能及在发现页加载更多图表。
Visual Reasoning Is Coming Soona year agohttp://arcturus-labs.com/blog/2025/03/31/visual-reasoning-is-coming-soon/OpenAI的GPT-4o实现了大语言模型内真正的图像操控功能,可保持完整对话上下文以生成连贯图像。当前大语言模型在图像处理上的局限包括图文交互能力薄弱,且无法直接修改现有图像。视觉推理被强调为下一重大突破,该能力使模型能对空间场景和社交情境进行可视化分析与逻辑推演。视觉推理模型的训练可能结合计算机图形学生成的合成数据与真实世界视频内容。视觉推理的潜在应用涵盖从机器人技术到社交互动理解等领域,对未来人工智能发展具有深远影响。
Show HN: Aqua Voice 2 – Fast Voice Input for Mac and Windowsa year agohttps://withaqua.comAqua Voice提供高精度的先进语音转文字技术,并支持不同场景的自动文本格式化具备行业领先的低延迟特性:即时模式(约450毫秒)和流式模式(约850毫秒)实现连续输出通过深度上下文增强技术,显著提升编程、即时通讯和文档编辑场景的识别准确率错误率比Siri和Google语音输入低约17倍,准确率高达99.1%支持词典自定义和自然语言指令,可轻松适配个性化需求对比案例显示Aqua在文本格式化和语法高亮方面具有明显优势提供简单透明的定价方案,含免费版和专业版可选
Evidence suggesting Quasar Alpha is OpenAI's new modela year agohttps://blog.kilocode.ai/p/quasar-alpha-what-we-know-thus-farQuasar Alpha是OpenRouter宣布的一款神秘新型AI模型,旨在收集社区反馈。有力证据表明Quasar Alpha归OpenAI所有,包括匹配的工具调用ID格式和API规范。Quasar Alpha已成为OpenRouter平台上计算机编程使用场景排名第一的AI模型。该模型支持消息对象中的'name'字段,这是目前仅xAI和OpenAI具备的功能。有推测认为Quasar Alpha可能是OpenAI的o4-mini-low模型更名后的版本。Quasar Alpha的使用量正在激增,特别是在Roo Code和Cline等AI编程应用中。该模型在OpenRouter平台五个不同类别中均位列前十。Quasar Alpha被认为性能稳定但非顶尖,其定位可能是为AI编程市场提供快速、廉价且足够智能的解决方案。Quasar Alpha现已在Kilo Code开放试用。
The IBM Z17 Mainframe Brings AI with Telum II and Spyre – ServeTheHomea year agohttps://www.servethehome.com/the-ibm-z17-mainframe-brings-ai-with-telum-ii-and-s...参加了IBM z17发布会,见证了最新IBM大型机的发布。IBM z17大型机搭载了带有片上AI加速功能的全新Telum II处理器。Telum II处理器采用液冷设计,最多可连接32个处理器组成系统。该系统配备Spyre AI加速器,专为金融数据处理中的欺诈检测而设计。主板非常厚重,约有40-50层,并包含密集排列的内存模块群。IBM正转向使用新型冷却液以简化维护工作。该大型机采用PCB over wires等设计,具备高可靠性特性。像z17这样的大型机可运行数千个Linux虚拟机,高效处理交易事务。会议讨论了新技术和政治因素影响下大型机的未来发展方向。