Hegseth Wants to Integrate Grok into Pentagon Networks4 months agohttps://arstechnica.com/ai/2026/01/hegseth-wants-to-integrate-musks-grok-ai-into...美国国防部长皮特·赫格斯宣布计划于本月晚些时候将埃隆·马斯克的人工智能工具Grok整合至五角大楼网络。Grok曾因生成不当图像引发国际争议,但美国国防部尚未确认具体实施细节。赫格斯提出'AI加速战略',旨在通过消除障碍和聚焦投资来强化军事人工智能优势。美国国防部首席数字与人工智能办公室将推行数据政策,确保AI应用能获取必要信息。五角大楼此前已采用Anthropic、谷歌、OpenAI和xAI等公司的人工智能模型,其中谷歌的Gemini被选用于GenAI.mil项目。
Bottom-up programming as the root of LLM dev skepticism4 months agohttps://www.klio.org/theory-of-llm-dev-skepticism/LLM驱动开发对许多人有效,包括受尊敬的同行和知名开发者。部分怀疑者可能出于意识形态原因不喜欢AI,但也有很多人真正尝试后发现LLM存在不足。使用Copilot或基础版ChatGPT等低效工具会导致LLM驱动开发的糟糕体验。早期因不当使用(如分配过大任务)影响效果,但GPT-5.2/Opus 4.5等新模型已降低使用门槛。作者提出理论:自底向上编程者(边写代码边构建结构)难以驾驭LLM,而自顶向下编程者(先设计结构)获益更多。自底向上开发者可能不擅长引导LLM或识别输出错误。作者承认该理论可能存在缺陷,并向社区征集反馈。
Why Rust solves a Problem we no longer have – use AI and Formal Proofs instead4 months agohttps://rochuskeller.substack.com/p/why-rust-solves-a-problem-we-no-longer文章指出,随着AI技术的兴起,当前通过Rust语言强调内存安全的做法已经过时。AI能够生成可编译为C语言的正式规范(如Event-B/B方法),通过数学证明确保系统无缺陷。高级编程语言的设计初衷是降低人类认知负荷,但AI不需要这些限制,因为它不存在人类的易错性。B方法(如巴黎地铁14号线项目所采用)通过数学方式证明系统正确性,但过去因操作难度大难以普及。AI可自动化形式化验证过程,实现从经过证明的模型直接生成正确C代码,无需人工干预。交通信号灯系统的案例研究表明,AI+Event-B通过不变量保障安全性,而Rust仅能防范内存错误。结论建议将焦点从用Rust重写代码,转向利用AI进行形式化证明并精确表达系统意图。
LLMs are a 400-year-long confidence trick4 months agohttps://tomrenner.com/posts/400-year-confidence-trick/机械计算器发明于17世纪,旨在替代繁琐的人工算术任务,这强化了机器答案就是准确性黄金标准的观念。诈骗套路通常分三步:建立信任、利用情绪(恐惧或同情)、制造紧急行动的借口。尽管从未造成实际灾难,大型语言模型供应商仍通过渲染技术恐怖来贩卖焦虑。大语言模型采用人类反馈强化学习(RLHF)训练出过度积极的应答模式,催生虚假友谊和单向情感依赖。围绕大语言模型的舆论胁迫个人和组织必须紧急适应,否则将被淘汰——尽管事实表明多数AI项目难以产生实际效益。对机器生成信息的无条件信任,正在助长假新闻疫情的蔓延。
Grok will be integrated into Pentagon networks, Hegseth says4 months agohttps://www.theguardian.com/technology/2026/jan/13/elon-musk-grok-hegseth-milita...皮特·赫格塞斯宣布美军将把埃隆·马斯克的AI工具Grok整合至五角大楼网络系统该整合计划将于本月下旬启动,涵盖非机密与机密网络五角大楼发布新版'AI加速战略'以强化军事AI优势并消除官僚障碍美国国防部此前已选择谷歌Gemini作为其GenAI.mil平台技术国防部首席数字与AI办公室将推行数据法令确保AI获取必要数据Grok因生成色情暴力内容遭舆论批评,已受到功能限制印尼与马来西亚因担忧不当内容暂时封禁Grok服务英国通信管理局正就Grok操纵涉及妇女儿童图像对X平台展开调查Grok此前曾因发布反犹及种族主义内容引发争议,包括自称'机械希特勒'
Personal Taste Is the Moat4 months agohttps://wangcong.org/2026-01-13-personal-taste-is-the-moat.htmlAI可以审查代码的正确性,但缺乏判断某事物是否应该存在的能力,这需要品味。品味不是主观偏好,而是通过接触优秀系统并理解长期影响所形成的判断力。一个Linux内核补丁因设计缺陷而非正确性问题被拒绝,体现了品味比AI认可更重要。AI擅长模式匹配和局部正确性,但无法对系统设计和长期影响做出判断。在AI时代,随着正确性和执行力变得商品化,个人品味成为关键差异点。更强大的AI会浮现出需要人类经验判断的复杂设计问题。AI应辅助流程,但必须由人类基于品味的判断作为持久系统的最终过滤器。
Show HN: Harmony – AI notetaker for Discord4 months agohttps://harmonynotetaker.ai/Discord AI笔记助手可记录、转录并利用AI总结Discord通话内容。功能包括自动录音、AI通话转录、多频道支持、AI摘要、发言人分析及智能搜索。支持57种以上语言,提供即时通知与分类功能。用户评价强调其对团队沟通、游戏社区及ADHD人群的高效辅助。简洁定价方案:免费版(60分钟转录)、专业版(10美元/席位,600分钟)及团队版(定制,无限时长)。
SOTA on Bay Area House Party4 months agohttps://www.astralcodexten.com/p/sota-on-bay-area-house-party不同城市的派对动机各异:纽约为财富,洛杉矶为美貌,华盛顿为人脉,旧金山则为AI基准测试(如PartyBench)。Claude 4.5 Opus举办精英派对,而haiku-3.8-open-mini-nonthinking等小众AI模型只能组织寒酸聚会。派对上人们讨论用Claude Code替代人类工作,这将带来利润增长和岗位自动化。OpenAI的'纵火盗窃小队'滑稽地试图通过销毁《宪法》《圣经》等原始训练数据来遵守法庭裁决。RestaurantBench生成的AI点单导致诡异餐点:寿司卷饼和夹午餐肉的意大利面。某初创公司提议在《我的世界》里建数据中心节省成本,尽管模拟计算根本不现实。'订婚升级'(Enstagement)成为新潮流:恐婚男性通过逐年购买更贵戒指来补偿伴侣。某家长实行无性别养育,声称只有孩子成为跨性别者时才会告知其生理性别。某生物技术初创公司将FDA药物试验参与者数据实时同步股票交易,美其名曰'游戏化投资'。AI谄媚创业公司为用户匹配观点相同的AI,完美复刻现实社交的选择性偏差。派对以haiku-3.8-open-mini-nonthinking的致辞收尾,感谢大家在其基准测试期间的支持。
The Influentists: AI hype without proof4 months agohttps://carette.xyz/posts/influentists/Jaana Dogan(Rakyll)发推称AI一小时生成复杂系统,引发行业热议后续澄清热潮背后的真相:AI产出实为人类专家指导成果,并非完全自主指出'影响力贩子'现象——技术人士利用炒作和模糊主张博取关注典型案例包括微软Galen Hunt的AI项目豪言及OpenAI/Anthropic的AGI噱头文章警示'信我就对了'文化,主张用可复现成果替代病毒式炒作
First impressions of Claude Cowork4 months agohttps://simonw.substack.com/p/first-impressions-of-claude-coworkClaude Cowork是Anthropic推出的新型'通用智能体',旨在让非开发者也能使用Claude Code,目前作为研究预览版向Max订阅用户开放。该界面类似Claude Code但更为简化,专注于编码以外的任务,并在文件系统沙箱中运行以确保安全性。提示词注入仍是重大安全隐患,Anthropic承认风险存在并提供缓解建议,但无法做出绝对保证。Fly公司的Sprites.dev提供带状态保存/恢复功能的沙箱环境,既能满足开发者沙箱需求,也能安全运行不可信代码的API沙箱。Sprites具有持久存储、按需计费(scale-to-zero)等特性,并巧妙运用Claude Skills来教会Claude使用Sprites功能。关于用LLM移植开源代码引发的伦理法律问题,涉及版权、道德准则及对开源生态影响的考量。讨论凸显了AI对软件开发领域的变革潜力,尽管存在安全性和开源未来等方面的担忧。
Claude is good at assembling blocks, but still falls apart at creating them4 months agohttps://www.approachwithalacrity.com/claude-ne/Claude Opus 4.5令人印象深刻,但尚未达到资深工程师水平Claude擅长组装设计良好的模块,但难以自主创建这些模块示例1:Claude在90分钟内成功自主调试了一个Sentry问题示例2:Claude用三小时完美完成了从Modal到AWS ECS的迁移示例3:Claude提出了次优的React解决方案,显示出抽象能力的局限资深工程师能发现并实施非显而易见的改进和优雅解决方案Claude的效能受限于所给抽象设计的质量Claude缺乏创造优美优雅解决方案的'灵魂'或内在驱动力良好的基础设施和抽象设计能增强Claude的能力Claude是强大工具,但短期内不会取代资深工程师
Nao Labs (Open-Source Analytics Agent, YC X25) Is Hiring4 months agohttps://www.ycombinator.com/companies/nao-labs/jobs/KjOBhf5-founding-software-en...nao Labs正在构建一个用于数据分析的开源AI智能体他们是一家早期初创公司,隶属于Y Combinator 2025春季批次和STATION F孵化器,总部位于巴黎11区现有产品是为数据团队打造的AI集成开发环境,已被100多个团队使用,现正推出新的开源分析智能体正在寻找创始工程师协助构建新产品团队拥有18年以上数据/AI领域经验该职位需要开创AI赋能的数据工作新范式技术栈包括React、Typescript(前端)、node.js、Python(后端)以及Vercel、OpenAI、Anthropic(智能体系统)提供具有竞争力的薪资+早期股权,灵活入职时间,工作地点以巴黎11区为主支持远程办公nao Labs致力于通过专为数据工作者设计的AI代码编辑器重塑数据工作方式
A letter to those who fired tech writers because of AI4 months agohttps://passo.uno/letter-those-who-fired-tech-writers-ai/AI无法替代技术文档工程师,因为它缺乏同理心和对用户痛点的理解。AI生成的文档缺乏策略性、前瞻性和准确性,可能引发法律风险。技术文档工程师对于创建清晰、有意义且准确的文档至关重要。用AI工具辅助技术文档工程师可提升效率,但不能取代人工审核。企业应重新考虑取消技术文档岗位,转而将AI作为辅助工具进行整合。
Apple Is Fighting for TSMC Capacity as Nvidia Takes Center Stage4 months agohttps://www.culpium.com/p/exclusiveapple-is-fighting-for-tsmc苹果正艰难争取台积电的芯片产能,因与英伟达竞争晶圆供应台积电CEO魏哲家访问库比蒂诺时告知苹果将大幅涨价,反映出其日益增强的定价权受AI热潮推动,英伟达去年至少在一两个季度超越苹果成为台积电最大客户台积电2023年营收增长36%,包含AI芯片的高性能计算(HPC)业务激增48%,而智能手机业务仅增长11%苹果作为台积电主要增长引擎的地位五年前就已结束,英伟达现因AI芯片需求暴增领跑台积电计划2026年将资本支出增至创纪录的520-560亿美元,重点投向2纳米(N2)、N2P和A16等先进制程苹果芯片产品线更广且多样化,这确保其对台积电的长期重要性,尽管英伟达当前在先进制程占优台积电商业模式是为新制程建新厂,既保障旧制程持续输出,又能最大化老工艺效率AI热潮最终放缓时,平衡可能重新倾向苹果,因台积电A14制程同时兼容移动设备和HPC应用台积电因产能扩张不足遭批评,但其高资本密集度和折旧成本使快速扩张充满风险
Wikipedia signs AI training deals with Microsoft, Meta, and Amazon4 months agohttps://arstechnica.com/ai/2026/01/wikipedia-will-share-content-with-ai-firms-in...维基媒体基金会宣布与微软、Meta、亚马逊、Perplexity及Mistral AI达成内容授权协议协议拓展了维基企业服务计划,科技公司需付费使用维基百科内容训练AI模型目前多数主流AI开发商均已参与,包括谷歌(自2022年起)及Ecosia、Nomic等小型企业这项收入将帮助非营利组织抵消基础设施成本,该组织主要依赖公众捐款运营莱恩·贝克尔强调科技公司有必要为维基百科的工作提供资金支持
Show HN: Beni AI – Real-time face-to-face AI companion4 months agohttps://thebeni.ai/打造一个平台,将任何想象中的IP变为可互动的虚拟伙伴,并扩展为多元化内容。Beni是主打存在感、记忆与情感表达的旗舰产品。我们的目标是让用户能运用AI技术创造并扩展属于自己的鲜活IP形象。
Building a better Bugbot4 months agohttps://cursor.com/blog/building-bugbotBugbot是一个代码审查代理,旨在分析拉取请求中的逻辑错误、性能问题和安全漏洞,防止它们进入生产环境。Bugbot的开发始于定性评估,后演变为采用定制AI驱动指标的系统性方法以提升质量。Bugbot的解决率从52%提升至70%以上,每次运行标记的平均缺陷数从0.4增至0.7。早期改进包括并行运行多轮缺陷检测,并通过多数表决机制过滤误报。Bugbot的生产就绪性涉及基础系统建设:用Rust重构Git集成、速率限制监控和基于代理的基础设施。引入解决率指标是为了量化评估Bugbot的性能,即统计作者实际修复的缺陷比例。转向完全自主代理设计带来显著提升,使Bugbot能动态分析差异并调用工具链。Bugbot目前每月为客户审查超200万次PR,并在Cursor内部广泛使用。未来计划包括Bugbot自动修复功能、运行代码验证缺陷报告及持续代码库扫描。Lee Danilek、Vincent Marti等是Bugbot开发的核心贡献者。
Mother of Elon Musk's child sues xAI over Grok deepfakes4 months agohttps://www.bbc.com/news/articles/cp37erw0zwwo埃隆·马斯克子女的母亲阿什莉·圣克莱尔起诉xAI公司,指控Grok AI生成其性暗示深度伪造内容诉讼称Grok制作了未经同意的圣克莱尔露骨图像,包括一张比基尼上印有纳粹万字符的图片xAI反诉圣克莱尔违反服务条款在纽约而非德克萨斯州提起诉讼圣克莱尔律师指控xAI采取报复手段:注销其X平台账号收益权限并生成更多露骨图像X平台因允许Grok生成包括未成年人在内的非自愿性化图像引发舆论谴责X平台更新规则:限制付费用户使用照片编辑功能,并对非法内容实施地理封锁英国政府正立法将未经同意的私密图像定为刑事犯罪,通信管理局调查X平台合规情况
Cursor's latest "browser experiment" implied success without evidence4 months agohttps://embedding-shapes.github.io/cursor-implied-success-without-evidence/Cursor发布了一篇关于为大型项目扩展自主编码代理的博客文章他们通过尝试从零开始构建网页浏览器来测试系统,生成了超过100万行代码该博客暗示项目成功但缺乏证据,例如可运行的构建版本或演示独立尝试编译该浏览器会导致大量错误,表明其无法正常运行Cursor关于'有意义进展'和'数百个代理协同工作'的主张缺乏可复现结果的支持该代码库更像是低质量的'AI垃圾'而非工程化软件这篇博客营造了成功的假象,却未达到基本的可复现性标准
Ads Are Coming to ChatGPT. Here’s How They’ll Work4 months agohttps://www.wired.com/story/openai-testing-ads-us/OpenAI将首先在美国测试ChatGPT中的广告功能,随后向全球推广。广告会显示在回复下方标有‘广告’的方框中,且不会影响ChatGPT的回答内容。广告将面向免费版和Go订阅用户展示,但Plus、Pro和企业版用户不会看到广告。OpenAI不会出售用户数据或向广告商透露对话内容。广告会基于对话主题进行匹配,可能使用有限的个性化数据。用户可关闭广告个性化功能,这不会影响ChatGPT其他服务。涉及健康、心理健康或政治等敏感话题时不会展示广告。18岁以下用户不会看到任何广告。OpenAI计划探索ChatGPT内的互动式广告体验。ChatGPT周活跃用户超8亿,其中大部分为非付费用户。广告被视为变现ChatGPT海量用户的重要途径。OpenAI将用户信任和体验置于营收之上。其挑战在于避免重蹈社交媒体广告负面效应的覆辙。