Show HN: AutoLearn Skills for self-improving agents7 months agohttps://www.autolearn.devAutoLearn将AI代理的推理过程转化为可靠、确定性的代码。每个代理根据使用模式构建独特的技能库。无需人工训练;AutoLearn从AI推理中自主学习。随着代理遇到新场景,技能持续提升。通过用确定性代码替代AI推断,降低多步骤工作流的失败率。代理自动开发并修正技能,无需人工干预。使代理从简单工具调用进化至真正的技能发展。用具备自适应学习能力的代理取代RPA和工作流工具。技能可在代理集群间共享,加速学习进程。
Agent Lightning: Train agents with RL (no code changes needed)7 months agohttps://github.com/microsoft/agent-lightningAgent Lightning 支持通过最小代码改动实现强化学习训练AI智能体兼容多种智能体框架,包括LangChain、OpenAI Agent SDK、AutoGen、CrewAI等支持在多智能体系统中对特定智能体进行选择性优化采用强化学习、自动提示优化和监督微调等算法提供轻量级辅助函数`agl.emit_xxx()`便于快速集成内置LightningStore中心枢纽,用于管理任务、资源和追踪记录包含Trainer组件以简化和标准化学习改进流程支持CPU/GPU测试、示例集成和依赖项检查等兼容性功能鼓励开发者通过贡献者许可协议(CLA)参与共建遵循微软开源行为准则和负责任AI标准采用MIT开源协议授权
Hard part about building AI Agents isn't planning it's making them stick to plan7 months agohttps://sia.build/blog/production-ai-agents构建AI智能体的难点在于确保大规模应用的可靠性、效率与安全性。生产级AI智能体的三大关键维度:明确角色定义、配备合适工具、确保有效规划与纠偏机制。清晰的角色定义能减少幻觉现象,提升任务完成速度与准确性。基于任务阶段和使用模式的动态工具注入机制,可降低上下文冗余并提升效率。执行追踪与偏差检测确保智能体遵循计划并正确完成任务。质量、速度、可恢复性和可调试性比步骤计数优化更为重要。多层防护机制(预执行、运行时、后执行)能预防灾难性故障。迭代修订能力对生产级智能体至关重要,如同软件开发中的版本控制。sia.build平台提供规划系统、动态工具链、防护机制和执行追踪功能,助力智能体可靠部署。
Show HN: Dexto – Connect your AI Agents with real-world tools and data7 months agohttps://github.com/truffle-ai/dextoDexto是一个一体化工具包,用于构建能将自然语言转化为现实世界行动的智能体应用。它作为通用智能层,可创建具备协作能力和情境感知的AI智能体及应用。通过配置驱动框架、健壮的运行时和丝滑的开发体验,Dexto让智能体开发变得简单。核心特性包括:基于YAML的智能体行为定义框架、带编排功能的运行时执行,以及对CLI/Web/API/TypeScript SDK的原生支持。支持开发自主智能体、数字伴侣、多智能体系统及智能体即服务(SaaS)应用。集成50+大语言模型,支持多模态交互、持久化会话及可插拔存储方案。支持npm安装或源码编译,提供Web界面/命令行/服务器等多种交互模式。内置预制智能体配方,涵盖代码生成、图像创作、播客制作等常见场景。采用模块化设计,智能体可组合移植,通过模型上下文协议(MCP)轻松扩展。具备人工审核流程、全链路可观测性,支持本地/云端/混合的灵活部署方案。
Policy, privacy and post-quantum: anonymous credentials for everyone6 months agohttps://blog.cloudflare.com/private-rate-limiting/我们与互联网的交互方式正在演变,AI代理能完成订披萨、规划假期等任务。AI代理由数据中心的海量模型驱动,导致网络流量模式改变并带来安全挑战。现有安全工具可能过于粗放,存在误将正常用户与恶意流量一并拦截的风险。匿名凭证(AC)被提出作为隐私保护方案,可管理AI代理流量而无需识别用户身份。Cloudflare正在开发简易AI代理演示订披萨流程,突显代理型AI的潜力与挑战。文章探讨了Privacy Pass等现有工具的局限性,并提出匿名信用令牌(ACT)和匿名限速凭证(ARC)作为更灵活的解决方案。匿名凭证具备延迟绑定来源、多重展示等特性,改进了盲签名和VOPRF技术的不足。性能对比显示,相比传统方法,匿名凭证能降低通信成本并减轻服务器负载。通过模型上下文协议(MCP)的演示案例,展示匿名凭证如何应用于订披萨等实际场景。Cloudflare正积极推进方案落地,并呼吁社区参与这些协议的标准化工作。
Java's Agentic Framework Boom Is a Code Smell6 months agohttps://www.gnanaguru.com/p/javas-agentic-framework-boom-is-a近期Java智能体框架的爆发式增长是一种代码异味,暗示着方法论存在缺陷Spring和Camel等传统框架本是为提升生产力、质量和治理而设计,但如今Cursor、Copilot等AI工具能更高效地处理样板代码开发者应聚焦于构建智能体而非编排框架,真正的价值在于生态系统和AI原生开发现代智能体框架包含六层架构:编程语言层、模型层、开发者生产力工具层、提示词包层、生态系统API层、架构设计模式层随着模型能力提升和专业平台处理工具管理、记忆等复杂工程问题,编排层正变得越来越薄框架的未来在于掌握这六层架构,而非构建特定语言引擎
New Prompt Injection Papers: Agents Rule of Two and the Attacker Moves Second6 months agohttps://simonwillison.net/2025/Nov/2/new-prompt-injection-papers/两篇关于大语言模型安全和提示注入的新论文被讨论。《智能体双规则:AI智能体安全的实用方法》提出受'致命三重奏'和谷歌浏览器'双规则'启发的'双规则'。该规则规定智能体最多只能满足三个属性中的两个,以避免提示注入的高影响后果。这三个属性是:处理不可信输入、访问敏感系统/数据、以及改变状态或与外部通信。'致命三重奏'模型仅限于数据泄露风险,而'双规则'包含状态改变,覆盖更多风险。《攻击者后手》论文使用自适应攻击评估了12种针对提示注入和越狱的防御措施。包括基于梯度、强化学习和搜索方法在内的自适应攻击,以超过90%的成功率击败了大多数防御。人类红队测试对所有防御措施取得了100%的成功率。论文强调了自适应评估对防御开发的重要性。结论表明目前尚无可靠的提示注入防御措施,支持将'智能体双规则'作为当前最佳实践。
We spent 47k running AI agents in production6 months agohttps://pub.towardsai.net/we-spent-47-000-running-ai-agents-in-production-heres-...多智能体系统代表未来,但基础设施层缺失导致成本高昂某团队因两个智能体陷入无限对话循环损失了47,000美元智能体间通信(A2A)和Anthropic的模型上下文协议(MCP)具有革命性但缺乏标准化Anthropic的MCP旨在规范AI智能体间的上下文共享,类似设备的USB-C接口标准实际应用挑战包括无限循环、上下文截断、级联故障和token爆炸问题当前智能体基础设施需要人工配置,耗费时间和资金GetOnStack正在构建生产级多智能体系统基础设施以避免昂贵错误
Code execution with MCP: Building more efficient agents6 months agohttps://www.anthropic.com/engineering/code-execution-with-mcp模型上下文协议(MCP)是一种将AI智能体连接到外部系统的开放标准,可减少定制化集成的需求。自2024年11月发布以来,MCP采用速度迅猛,目前已建成数千个MCP服务器,并为主流编程语言提供了SDK支持。工具定义和中间结果导致的过量token消耗会拖慢智能体运行速度并增加成本。通过代码执行方式使用MCP时,智能体可将MCP服务器作为代码API交互,显著减少token使用量,提升效率。代码执行的优势包括:工具的渐进式披露、上下文高效的工具结果、更强大的控制流、隐私保护操作以及状态持久化。虽然代码执行需要安全环境支持,但能带来token成本降低、延迟减少和工具组合能力提升等效益。
Show HN: Hephaestus – Autonomous Multi-Agent Orchestration Framework6 months agohttps://github.com/Ido-Levi/HephaestusAI工作流可以动态编写自己的指令,当智能体发现任务时自动生成操作指南赫菲斯托斯系统负责协调多个AI智能体,监控其运行轨迹,并动态构建工作流程传统智能体框架需要为每个场景预定义指令,限制了系统适应性赫菲斯托斯引入逻辑阶段类型(分析、实施、验证),允许智能体根据发现随时生成各阶段任务当发现优化机会、安全问题或更优架构模式时,智能体可自主创建新任务,实现工作流自动分支示例:验证身份认证系统的智能体发现缓存模式后,自动生成调查和实施任务工作流根据实时发现动态调整,而非依赖预设方案半结构化设计平衡了规范(阶段定义、完成标准)与灵活(动态任务创建)运行环境要求Python 3.10+、tmux、Git、Docker、Node.js、npm及Claude Code等CLI AI工具安装验证脚本会检查命令行工具、API密钥、配置及服务状态可通过GitHub、问题追踪系统和电子邮件获取文档与社区支持
Agentic Pelican on a Bicycle6 months agohttps://www.robert-glaser.de/agentic-pelican-on-a-bicycle/代理循环(生成、评估、改进)被用于迭代优化一只骑自行车鹈鹕的SVG图像Simon Willison的基准测试——'生成一只骑自行车鹈鹕的SVG图像'——用于测试模型的创造力和改进能力模型被赋予Chrome DevTools等工具进行SVG转JPG转换,并利用自身视觉能力进行自我评估和迭代测试了六种多模态模型:Claude Opus 4.1、Claude Sonnet 4.5、Claude Haiku 4.5、GPT-5 Medium、GPT-5-Codex Medium和Gemini 2.5 Pro结果各异:Claude Opus 4.1添加了自行车链条等现实细节,而GPT-5-Codex使图像更复杂但未必更好Gemini 2.5 Pro在迭代过程中展现出最显著的构图变化实验表明不同模型在自我批判和改进能力上存在差异,有些擅长机械推理,有些则在审美判断上表现欠佳
Streaming AI Agent Desktops with Gaming Protocols6 months agohttps://blog.helix.ml/p/technical-deep-dive-on-streamingHelix使用游戏串流协议Moonlight为AI智能体构建了浏览器交互式桌面沙箱环境Moonlight本为单玩家游戏设计,但Helix需要多用户共享AI智能体会话初期解决方案:'应用模式'下Helix API伪装客户端启动会话,但本质仍是单用户最终方案:采用Wolf(Moonlight服务器)的'大厅模式',该模式专为多人游戏设计,允许多用户连接同一智能体会话当前大厅模式的挑战包括输入缩放问题、部分客户端视频失真、动态分辨率灵活性不足架构包含Helix API、Moonlight-web、Kubernetes中的Wolf服务,以及GPU加速的Wayland桌面容器Moonlight具备低延迟、硬件编码、网络容错和多平台支持优势,但需改造以适应AI智能体场景关键经验:协议预设条件可能带来挑战,临时方案会增加复杂度,开源协作极具价值未来计划包括修复大厅模式缺陷、实现多用户支持、提升移动客户端兼容性
Show HN: An A2A-compatible, open-source framework for multi-agent networks6 months agohttps://github.com/openagents-org/openagentsOpenAgents是一个开源项目,旨在创建用于协作的AI智能体网络。它提供协议无关的基础设施,支持WebSocket、gRPC、HTTP、libp2p和A2A等多种协议。智能体可以加入网络,在自包含的社区内协作、学习并成长。其特性包括模块化驱动架构、简易智能体集成和快速网络部署。支持通过pip、Docker或npm安装,推荐使用Python 3.12环境。快速入门包含初始化网络、启动网络和连接智能体三个步骤。OpenAgents Studio提供基于网页的交互界面用于操作网络。早期支持者通过在GitHub上星标项目可获得Day 1纪念徽章。用户可通过Discord和GitHub获取文档与社区支持。
Open Source and Local Code Mode MCP in Deno Sandboxes6 months agohttps://portofcontext.com在安全沙盒中用代码模式替代LLM工具调用通过稳健的开源框架将AI智能体连接到现实世界pctx将MCP服务器呈现为代码API,提升上下文效率与任务完成成功率基于MCP的开源代码执行框架,为AI智能体带来代码模式无需依赖云服务,完全掌控您的运行环境兼容Claude、GPT、Gemini或任何您选择的模型可部署于Docker、AWS、GCP、Azure或任何云平台代码模式支持按需工具发现、并行执行,并减少98.7%的token消耗pctx与LLM无关、开源(MIT许可)且支持自托管迁移到pctx过程简单,可立即获得性能提升
Agent design is still hard6 months agohttps://lucumr.pocoo.org/2025/11/21/agents-are-hard/使用SDK抽象构建代理在实际工具使用时容易崩溃,过程混乱。显式缓存管理更受青睐,因其可预测性和控制性,特别是在Anthropic的方法中。在代理循环中进行强化对于引导代理和处理故障至关重要。通过类似文件系统的层共享状态是代理操作的核心。输出工具设计复杂,存在语气控制和确保工具调用的挑战。模型选择取决于任务,Haiku和Sonnet因其工具调用能力成为首选。由于系统的代理特性,测试和评估面临挑战。Amp因其创新的代理设计和子代理交互机制正在接受测试。
An Economy of AI Agents6 months agohttps://arxiv.org/abs/2509.01063能够在最少人工监督下规划和执行复杂任务的AI代理可能会在经济中变得普遍。本章探讨了AI代理如何与人类及彼此互动、影响市场和组织,以及良好运作市场所需的制度。强调了AI代理相关的最新进展和经济学家面临的开放性问题。
The Bitter Lesson of LLM Extensions6 months agohttps://www.sawyerhood.com/blog/llm-extension大语言模型扩展功能从简单的文本输入演变为具有可定制工具的复杂智能体ChatGPT插件(2023年3月)首次提出大语言模型调用REST API的概念,但GPT-3.5等模型难以理解API规范自定义指令(2023年7月)通过在每个对话自动附加用户预设提示,简化了重复性上下文设置自定义GPT(2023年11月)将角色设定、文件资源和操作指令打包成可分享链接,向单一功能应用转型ChatGPT记忆功能(2024年2月)通过跨对话记忆用户信息实现自动化个性化服务光标规则(2024年4月)通过`.cursorrules`文件将自定义指令直接集成到代码仓库中模型上下文协议MCP(2024年11月)建立了模型与工具资源交互的标准化框架Claude代码系统(2025年2月)推出`CLAUDE.md`文档、MCP协议、斜杠命令和钩子等多元扩展机制智能体技能(2025年10月)采用Markdown文件和脚本简化工具集成,有效控制上下文膨胀未来大语言模型扩展可能聚焦自然语言交互和通用工具,逐步淘汰MCP等专用协议
Claude Advanced Tool Use6 months agohttps://www.anthropic.com/engineering/advanced-tool-useAI代理将无缝协同数百甚至数千种工具,涵盖git版本控制、文件操作、包管理器、测试框架和部署流水线等多种操作高效代理需支持无限扩展的工具库,无需预加载所有定义,能够按需动态发现并调用工具代理应支持通过代码直接调用工具,减少完整推理过程消耗,避免中间结果堆积占用上下文空间代理需要通过实际案例学习工具的正确用法,而非仅依赖模式定义,以掌握使用惯例和最佳实践发布三大新功能:工具搜索工具、编程式工具调用、工具使用示例工具搜索工具使Claude无需占用上下文窗口即可访问数千种工具编程式工具调用允许Claude在代码执行环境中直接调用工具,显著降低对模型上下文窗口的影响工具使用示例建立了展示工具高效用法的通用标准内部测试显示这些功能显著提升了准确性和执行效率工具搜索工具在保持全工具库访问的同时降低85%的token消耗编程式工具调用在复杂任务中减少37%的token消耗并提升准确性工具使用示例使复杂参数处理的准确率从72%提升至90%最佳实践包括:功能分层部署、配置工具搜索优化发现机制、采用编程式调用提升执行效率这些功能已开放测试版,可通过特定请求头和工具配置启用
Cekura (YC F24) Is Hiring6 months agohttps://www.ycombinator.com/companies/cekura-ai/jobs/0ZGLW69-forward-deployed-en...Cekura(YC F24)是一家快速增长的公司,专注于AI语音代理的可靠性。他们提供一个平台,用于跨多种渠道(电话、聊天、短信、网页)模拟和监控AI代理。核心功能包括测量延迟、插话打断、指令遵循以及检测性能退化。公司资金充足,并得到顶级投资机构支持。Cekura通过真实对话场景和AI生成的数据集实现自动化测试。其平台提供实时监控、日志记录和警报功能以优化性能。由印度理工学院孟买分校校友创立,团队成员拥有苏黎世联邦理工学院的研究背景。Cekura帮助缩短产品上市时间,并减少代价高昂的生产环境错误。他们旨在通过确保部署前的可靠性来建立信任。
Effective harnesses for long-running agents6 months agohttps://www.anthropic.com/engineering/effective-harnesses-for-long-running-agent...AI代理在长时间运行任务时因会话间记忆丢失而面临困难。Claude代理SDK提出了双重解决方案:初始化代理与编码代理。初始化代理负责环境搭建,包括脚本配置与进度追踪系统。编码代理采用增量式工作模式,确保状态纯净并为下次会话留存清晰成果。关键挑战包括项目过早标记完成和进度记录缺失问题。通过特征清单文件实现系统化的进度追踪与验证。强调增量式开发与测试以维持代码质量。采用Git版本控制系统与进度文件弥合会话间隔。未来研究方向包括探索多代理架构及解决方案在其他领域的泛化应用。