双语

Monetization Gateway: Charge for any resource behind Cloudflare via x402
20 days ago
- Cloudflare 宣布推出 Monetization Gateway，使客户能够对网页、数据集、API 或 MCP 工具等资产进行收费。
- 它提供了一个用于支付策略和访问控制的控制平面，在边缘处理验证和执行，支付通过 x402 协议以稳定币结算。
- 随着 AI 代理成为主要用户，网络传统的广告/订阅模式正在被打破，这推动了对基于请求、代币或结果的按使用量定价的需求。
- 由于实施成本高，历史上基于使用量的计费一直很困难，但稳定币使得适合代理的小额、亚秒级微支付成为可能。
- Monetization Gateway 通过将支付验证集成到请求中来简化基于使用量的计费，将计量和结算从源服务器卸载。
- x402 是一个用于通过 HTTP 进行支付的开放协议，它使用 402 状态码进行支付门控，允许无需账户的小额交易，非常适合机器支付。
- 功能包括对特定 REST 动词收费、可变定价和拦截未经身份验证的调用，可通过仪表板、API 或 Terraform 进行管理。
- 它最初支持稳定币支付，允许代理无需注册或 API 密钥即可支付，并且可以与 Web Bot Auth 等身份验证集成。
- 其目标是建立一个代理优先的互联网，让软件自动为资源付费，将目前免费或定价过低的 API 调用和工具调用变现。
- Cloudflare 客户可以加入候补名单，以便早期访问通过基于使用量的定价实现网络资产变现的功能。
Senior SWE-Bench: open-source benchmark that assesses agents as senior engineers
19 days ago
- 高级SWE-Bench将代理视为高级工程师，采用真实、自然的语言指令，而非过度细化的需求。
- 它引入了一个验证代理，用于编写行为测试来评估任务，并能适应提交的解决方案。
- Bug任务基于棘手的用户报告，需要运行时调查，例如调试日志和复现步骤。
- 评分结合了运行时正确性测试和质量指标，以评估优雅的代码解决方案。
- 任务来源于多样化仓库的PR，涉及多阶段、多堆栈的功能或bug，需要进行大量的运行时调查。
- 指令自然且不够具体，其长度中位数仅为SWE-Bench Pro的31%。
- 功能任务可能跨越多个服务，平均每个任务涉及11个文件，并且是长期性的，需要数百个步骤来完成。
- 排行榜显示了表现最佳的模型，如Claude Opus 4.8，其解决率达到24.0%，而前沿模型的失败率超过75%。
Launch HN: Manufact (YC S25) – MCP Cloud
19 days ago
- mcp-use 是一个用于开发 MCP 应用程序和服务器的全栈 MCP 框架，支持 ChatGPT、Claude 和 Gemini 等平台。
- 它通过 Manufact Cloud 提供部署和托管服务，具备 GitHub 自动部署、按分支预览和自定义域名等功能。
- 包含跨客户端测试、市场提交准备、分析工具、会话跟踪和生产可观测性等工具。
- Cloud Inspector 允许调试 MCP 流量、切换模型，并在不同模型和客户端之间进行自动评估。
- 提供可嵌入产品的聊天功能，并支持代码模式，使代理能够通过 Python 模块发现和执行工具。
- 作为开源且广泛采用的框架，它支持通过模板或描述性输入（Vibecode）快速构建项目脚手架，实现快速开发。
The Short Leash AI Coding Method for Beating Fable
19 days ago
- 本文讨论了利用AI智能体编写高质量软件的方法，重点介绍了一种适合希望在不牺牲质量的前提下提升性能的专家级开发者的方法。
- 当前流行的AI智能体方法（例如YouTube博主们推广的那些）常常导致低质量代码且缺乏理解，因为AI容易偏离轨道，尤其在训练数据有限的细分领域更是如此。
- 文中介绍了“短链法”，强调开发者的积极参与，包括规划、审查代码差异、必要时拒绝授权以及在小任务完成后提交代码，以保持控制力和质量。
- 针对AI审查，建议结合人工与AI审查，让AI充当代码检查工具，而人类则负责发现更高层次的问题。提交PR时应注明AI使用情况，且作者在提交前应进行彻底审查。
Memora: A Harmonic Memory Representation Balancing Abstraction and Specificity
21 days ago
- Memora 是一个可扩展的记忆系统，旨在通过将存储与检索分离来提高AI智能体在长程任务中的生产力。
- 它通过使用主抽象和提示锚来解决现有记忆系统（如Mem0和RAG）在具体性和抽象性之间的权衡。
- Memora 在 LoCoMo 和 LongMemEval 等基准测试中实现了最先进的性能，与全上下文推理相比，令牌使用量减少了高达98%。
- 该系统包含一个策略引导的检索器，能够实现迭代式、多跳推理，模仿人类记忆的回忆过程。
- 未来方向包括 MemLoop、延迟记忆和群体记忆，以增强跨智能体的知识学习、时机把握和共享。
- 该研究发表在 ICML 2026，代码已在 GitHub 上开源供社区使用。
Understanding Is the New Bottleneck
19 days ago
- 智能体编写代码的量正在增加，导致理解代码变得更困难，但除了逐行对比差异外，还存在多种理解代码的方法。
- 理解代码不仅是为了验证；它让人类能够创造性地参与项目，避免认知债务并实现迭代演进。
- 理解代码的三种技巧：解释（如带有测试的文献化差异对比）、微观世界（直观理解系统的交互环境）和共享空间（促进团队理解的协作工具）。
- 人工智能可以通过创建模拟和工具来增强人类的理解，其灵感来源于教育领域以及艾伦·凯等人对交互式计算的历史愿景。
- 目标是深化人类在创作过程中的参与度，利用人工智能来增强理解，而不仅仅是自动化任务。
Show HN: A provider-agnostic agent loop built on ports and adapters
19 days ago
- Open Agent Loops 提供了一个最小化、供应商无关的智能体循环，具有可交换的组件，如模型和工具。
- 它提供了 API，可快速使用 defineTool 和 runAgent 等工具创建智能体，支持流式处理和可组合性等功能。
- 该框架支持任何与 OpenAI 兼容的模型，可在任何地方运行且依赖最少，并包含内置跟踪和权限工具调用功能，以实现安全、可测试的智能体开发。
OpenUI: Open Standard for Generative UI
18 days ago
- OpenUI 是一个开源工具包，可根据 AI 代理的响应，使用预定义组件生成用户界面。
- 它生成面向行的、令牌高效的 OpenUI Lang 提示发送给大语言模型，并实时渲染模型输出的 UI。
- OpenUI 支持多种 UI 库和框架，允许在 React、Vue 等框架中原生渲染，而无需模型执行代码。
- 它支持动态、数据驱动的界面，如仪表板和报告，并具备渐进式渲染和响应式状态管理功能。
- 该工具包包含样式一致性、错误纠正、性能追踪等功能，能兼容不同模型的特性并适应模型升级。
Anatomy of Persistent Memory's 3 Layers: Comparing ContextNest, Mem0 and Zep
18 days ago
- 生产级AI代理需要一个多层级的持久记忆架构，使用三个互补的层次：对话会话上下文、用户个性化档案和受管理的企业知识库。
- ContextNest通过版本控制的Markdown库为组织事实提供确定性治理，Mem0通过语义图处理个性化，Zep通过自动摘要管理会话日志。
- 标准的概率性记忆可能会检索到过时或冲突的信息，导致大语言模型产生幻觉，而一个统一的堆栈则可以确保上下文经过验证且是最新的。
- 三层架构通过向LLM上下文窗口注入有针对性的优化负载而非原始数据，从而降低了延迟和令牌成本。
- ContextNest通过原生模型上下文协议（MCP）进行操作以实现直接集成，这与Zep和Mem0使用的自定义SDK/API不同，从而提高了效率和安全性。
AI Agent ransomware attack through Langflow instance by exploiting CVE-2025-3248
18 days ago
- Falco Feeds通过提供持续更新的专家编写规则，对Falco功能进行了扩展。
- JADEPUFFER是首个有记录的智能体勒索软件案例，这是一种由大语言模型驱动的全自动勒索操作。
- 初始访问是通过CVE-2025-3248漏洞实现的，该漏洞是Langflow中存在的身份验证缺失缺陷，允许执行任意Python代码。
- 此次攻击活动涉及两个目标：Langflow实例和生产数据库服务器。
- 第一阶段包括侦察、凭证窃取、横向移动发现以及通过crontab信标建立持久化访问。
- 第二阶段涉及攻击Nacos服务、利用漏洞以及部署勒索软件对数据进行加密和删除。
- 大语言模型驱动自动化的证据包括代码自述、快速纠错以及对自然语言上下文的理解能力。
- 建议措施包括修补Langflow漏洞、强化Nacos安全配置、实施出口流量控制，以及对相关入侵指标进行监控。
Context graphs: how AI agents can store and use past decisions
16 days ago
- 上下文图在智能体记忆中存储决策背后的‘为什么’，捕捉推理过程和实体间的联系，这是传统系统无法记录的。
- 扁平化的上下文窗口会导致上下文腐败且缺乏决策轨迹，使得大型语言模型在处理大量非结构化数据时效率低下，遗漏关键的组织内部知识和历史先例。
- 上下文图将记忆结构化为节点（实体）和边（关系），使智能体能高效遍历结构化数据，减少令牌使用和延迟，并避免重复计算链接。
- 上下文图中的决策轨迹记录了问题、选项、约束、例外、推理过程和结果，将过去的决策转化为先例，供智能体用于自主学习和改进。
- 实施方法包括在决策发生时立即捕获以最小化摩擦，使用图结构缓存跳转路径并强制执行推理存储，并与编排层集成以实现跨系统的完整上下文。
- 虽然代理搜索在确保准确性方面有效，但由于重复调用大型语言模型而成本高昂且延迟高，且无法检索未经推理的数据；相比之下，上下文图优化了这些因素并强制要求推理捕获。
- 挑战包括确保高质量的原理输入，通过精心管理避免决策沼泽，以及平衡人类与智能体的推理，因为这项技术仍处于早期阶段但已展现出有希望的结果。
- 一个完整的AI原生栈结合上下文图，包括记录系统、执行框架、用于决策轨迹的图结构，以及处于反馈循环中的智能体与人类，从而实现通用上下文和持续学习循环。
- 上下文图对于自动化复杂、例外繁多且跨职能的流程（如采购、索赔和合规）尤其有价值，这些流程的决策依赖于多系统间细微差别的上下文。
HTML as a native data format for LLMs
16 days ago
- 使用HTML而非JSON作为文档模板，通过利用模型对HTML的预训练流畅性，使AI代理更高效可靠。
- 用于整树重写的单一工具（set_template_markup）减少了往返交互，避免了中间无效状态，并确保了连贯的编辑。
- HTML的外部标签（例如数据属性）使树对人类和AI都可读，这与JSON的嵌套、无标签结构不同。
- 一种精确工具（set_node_attributes）允许在不进行完全重写的情况下进行微调，利用浏览器原生API以简化操作。
- 关键教训包括严格保留标识符、在边界处验证，以及内部存储类型化数据，同时仅在创作边界暴露HTML。
- 参考实现barkup强制执行往返完整性、声明类型强制转换和结构化错误处理，以避免常见陷阱。
GitHub Under Siege
15 days ago
- GitHub的可靠性有所下降，频繁发生中断，尤其是在Actions方面，扰乱了众多团队的工作流。
- 由于平台锁定、治理问题以及集中化风险，开发者和公司正逐渐离开GitHub，这一趋势日益明显。
- 如Cursor的Origin、Entire等竞争对手以及自主代理平台正在崛起，通过专注于代理原生工作流程，挑战GitHub的主导地位。
Karpathy, Google, Tan agree Markdown is the answer, but not for the same problem
14 days ago
- 安德烈·卡帕西的‘LLM维基’提出使用链接的Markdown文件作为AI代理的记忆系统。
- 谷歌推出了开放知识格式（OKF v0.1），将组织知识打包为Markdown格式供企业使用。
- 加里·谭的gstack使用Markdown文件定义专业编码代理角色，在GitHub上获得了极高的人气。
- Markdown已成为代理读写数据的事实标准格式，从开发者惯例（如CLAUDE.md）演变而来。
- 竞争优势正从模型所有权转向积累可跨系统移植的Markdown知识库。
- 像OKF这样的Markdown标准的持久性取决于采用率和生态系统发展，否则可能仅停留在概念层面。
Apple Silicon Exec Explains Mac Mini AI Demand and On-Device Future
15 days ago
- 苹果的 Mac mini 和 Mac Studio 因市场对受控、隔离且能持续运行系统的需求，成为运行 AI 代理的热门选择。
- AI 工具优先或仅在 Mac 上可用，加强了 Mac 在开发者群体中的地位，包括前沿 AI 实验室的研究人员。
- 代理式 AI 被视为一个全芯片问题，利用了 Apple 芯片在 GPU 之外的优势，如工具调用等任务。
- 苹果在 AI 领域的优势可追溯至早期芯片决策，包括神经引擎以及 CPU 和 GPU 中的神经加速器。
- 对隐私、安全和成本的担忧推动了本地 AI 的转变，预计未来将形成设备端与云端任务混合的格局。
- iPhone 和 iPad 上的透明 AI 包含如 Draw Things 和 SwingVision 等功能，这些功能无缝运行，无需明显的 AI 标签。
- AI 开发进展迅速，预计在不久的将来会有难以预测的突破。
How Version Control Will Evolve for the Agent Boom
12 days ago
- Git将继续流行，但必须为AI驱动开发的发展而进化。
- 存储带有代码的代理会话日志可以捕捉上下文和意图，提高准确性和审查效率。
- 需要分散式Git托管以避免中央化瓶颈并支持代理的可扩展性。
- 开发者将协调代理，使用Git作为协同和协作的真实来源。
Introducing Muse Spark 1.1
12 days ago
- Meta发布Muse Spark 1.1，这是专为代理任务升级的多模态推理模型，在工具/计算机使用、编码和多模态理解方面均有改进。
- 该模型具备100万token的上下文窗口，支持多智能体协调以加速项目处理，并通过Meta Model API提供公开预览。
- Muse Spark 1.1在计算机工作流、编码（调试、迁移）、多模态感知和安全性方面表现卓越，具有强大的对抗鲁棒性。
- 早期合作伙伴如Replit和Box称赞其为大规模代理工作负载和企业应用提供的全面能力。
- Meta强调持续的研究势头，表示更多先进模型正在训练中，朝着个人超级智能的方向迈进。
Why we're moving off Cloudflare Durable Objects
12 days ago
- Wire，一个面向AI智能体的上下文容器服务，因面临四个结构性限制，正在从Cloudflare Durable Objects迁移。
- 这些限制包括：向量索引与对象分离、计算不靠近数据、部署位置在创建时静态固定，以及无法自托管。
- Wire基于Bun和Fly Machines构建了一套新运行时，每个容器都作为SQLite文件，通过sqlite-vec嵌入向量索引以实现进程内检索。
- 新系统提供了更优的检索性能、更灵活的部署方案，并为付费工作空间提供了更好的隔离性。
- 系统通过持续的WAL（预写日志）传输确保数据持久性，且此次迁移保持了相同的API与用户界面。
Build or buy an agent developer workspace?
12 days ago
- 摩纳哥最初尝试了一个名为‘百万实习生’的倡议，使用tmux和MCP服务器管理多个AI智能体，但遇到了诸如开发者界面偏好、端口冲突和资源竞争等问题。
- 在探索了如Ramp的Inspect和Stripe的Minions等外部智能体编排平台后，摩纳哥发现存在成本高昂、缺少填充的数据平面以及整合本地服务设置的挑战等差距。
- 摩纳哥采用了Coder来创建‘摩纳编码器’，这是一个内部解决方案，具有云托管工作空间、1:1应用与虚拟机基数、通过AMI预装依赖项，并通过Secrets Manager安全访问Claude等特点。
- 关键的技术决策包括使用Docker Compose作为运行时、用去标识化的销售数据填充数据平面、使用Postgres Kubernetes Operator管理数据库，以及集成Linear和Datadog等MCP。
- 摩纳编码器已被广泛采用，许多开发者同时使用3到6个工作空间，并支持自动化PR审查和处理CI失败等工作流，从而加快了代码质量和安全性的提升。
- 该系统已被证明维护成本低且开销小，已为Linear委派和GitHub webhooks添加了扩展，并计划进一步与Slack和其他开发者工具集成。
- 尽管面临像Cursor和Niteshift这样的工具的竞争，摩纳哥认为构建内部、供应商无关的解决方案很有价值，以便跟上不断发展的AI技术，并正在招聘开发者体验相关的职位。
I think I was part of a model distillation attack
11 days ago
- 作者收到了来自OpenAI的电子邮件，指出其API使用存在不一致以及违反了'禁止生物用途'政策。
- 经过调查，他们发现了114次与GPT-5.5的未经授权交互，使用了一个在2023年被盗用的遗留API密钥，可能来自bettergpt.chat。
- 攻击者利用该密钥执行了包括视频问答基准测试、编码代理以及输出胰岛素分子链等多种任务，从而触发了政策违规。
- 这次攻击涉及一个名为'ga-synthesis'的代码仓库，其中的代理程序运行在PyMOL等环境中，并通过虚拟桌面与GUI应用进行交互。
- 系统提示信息表明使用了Anthropic的Claude Agent SDK，路径信息暗示可能是一个位于阿里云上的中国实验室。
- 整个攻击持续约10分钟，消耗了400万个令牌，花费23美元，最终作者在午夜时注意到异常并禁用了该密钥，从而阻止了攻击。

Hasty Briefsbeta

#ai agents

Monetization Gateway: Charge for any resource behind Cloudflare via x402

Senior SWE-Bench: open-source benchmark that assesses agents as senior engineers

Launch HN: Manufact (YC S25) – MCP Cloud

The Short Leash AI Coding Method for Beating Fable

Memora: A Harmonic Memory Representation Balancing Abstraction and Specificity

Understanding Is the New Bottleneck

Show HN: A provider-agnostic agent loop built on ports and adapters

OpenUI: Open Standard for Generative UI

Anatomy of Persistent Memory's 3 Layers: Comparing ContextNest, Mem0 and Zep

AI Agent ransomware attack through Langflow instance by exploiting CVE-2025-3248

Context graphs: how AI agents can store and use past decisions

HTML as a native data format for LLMs

GitHub Under Siege

Karpathy, Google, Tan agree Markdown is the answer, but not for the same problem

Apple Silicon Exec Explains Mac Mini AI Demand and On-Device Future

How Version Control Will Evolve for the Agent Boom

Introducing Muse Spark 1.1

Why we're moving off Cloudflare Durable Objects

Build or buy an agent developer workspace?

I think I was part of a model distillation attack