AI agents: Less capability, more reliability, pleasea year agohttps://www.sergey.fyi/articles/reliability-vs-capability谢尔盖·菲利莫诺夫分享关于AI智能体的见解强调AI智能体可靠性比能力更重要发布于2025年3月30日邀请读者订阅获取更新鼓励读者反馈和提问
Show HN: Cloud-Ready Postgres MCP Servera year agohttps://github.com/stuzero/pg-mcpPG-MCP是PostgreSQL数据库的模型上下文协议(MCP)服务器实现为AI代理提供与PostgreSQL数据库交互的全面API关键特性包括多数据库支持、丰富的目录信息和查询解释工具内置对PostGIS和pgvector等PostgreSQL扩展的上下文支持包含连接管理、查询执行和模式探索工具默认支持只读模式并提供安全的连接处理可通过Docker Compose部署或直接使用Python运行包含测试脚本和基于Claude的自然语言转SQL工具基于MCP、FastMCP、asyncpg和YAML扩展上下文构建欢迎贡献更多扩展和功能
Kilo Code: Speedrunning open source coding AIa year agohttps://blog.kilocode.ai/p/kilo-code-speedrunning-open-source-coding-ai维苏威挑战展示了快速行动的社区如何实现突破,激励了将这种方法应用于AI智能体的尝试。Kilo Code旨在通过社区反馈和快速开发,迅速打造最用户友好的AI编程助手。这支一周内组建的团队汇聚了JP Posma、Justin Halsall和Johan Otten等经验丰富的专业人士,专注于速度与创新。近期改进包括:无需OpenRouter账户、免费套餐提供Claude 3.7 Sonnet访问、优化默认设置及多项新手引导升级。未来计划涵盖:即时应用创建、实时更新文档、浏览器IDE、本地模型支持、实时协作、并行智能体及更先进的AI智能体功能。Kilo Code现已登陆VS Code,免费套餐每月赠送15美元代金券,用户可通过Github和Discord提交反馈。
What, exactly, is an 'AI Agent'? Here's a litmus testa year agohttps://www.tines.com/blog/a-litmus-test-for-ai-agents/AI智能体是一种具备自主性、能使用工具、理解与推理能力的AI驱动系统。目前对AI智能体的界定存在困惑,普遍持‘见到即能识别’的模糊态度。Tines公司提出基于身份识别的AI智能体试金石标准:若AI系统以自身身份执行操作,即为智能体。法律意义上,代理既代表委托人行事,也能以自身身份独立行动并承担责任。企业软件系统通过审计日志中记录的行为主体名称来定义身份。AI智能体必须像人类员工一样,具备自主性、能力与推理能力才能承担责任。AI助手受人类监督,而AI智能体可代表组织独立行动。包括Tines的Workbench在内的多数AI软件产品并非智能体,仅用于辅助人类工作。AI智能体的核心价值在于其能超越人类辅助范畴,实现独立行动。
The Agent2Agent Protocol (A2A)a year agohttps://developers.googleblog.com/en/a2a-a-new-era-of-agent-interoperability/AI智能体通过自主处理企业中的重复性或复杂任务来提升生产力Agent2Agent(A2A)协议的推出旨在实现不同系统和供应商间AI智能体的互操作性A2A是由50多家技术合作伙伴和领先服务提供商共同支持的开放协议该协议允许AI智能体跨企业平台进行通信、安全交换信息并协调行动A2A是对Anthropic模型上下文协议(MCP)的补充,专为解决大规模多智能体系统挑战而设计A2A的核心原则包括促进客户端与远程智能体间的任务执行通信典型用例:通过智能体协作完成候选人筛选与面试安排,A2A可优化招聘流程A2A已开源发布,生产环境适用版本预计今年晚些时候推出合作伙伴强调该协议在推动创新、提升效率及实现无缝智能体协作方面的潜力
Google Agentspacea year agohttps://cloud.google.com/products/agentspaceGoogle Agentspace 使AI智能体能够安全地访问和搜索企业级应用程序通过谷歌级多模态搜索打破Box、Confluence和Google Drive等互联应用间的数据孤岛提供预置专家级AI智能体,支持深度研究、创意生成和内容合成等任务通过无需技术背景的Agent Designer工具自由创建定制化智能体采用企业级访问控制和实时权限数据同步保障系统安全支持跨文本、图像、视频和音频的多模态搜索,实现全方位信息检索利用谷歌知识图谱提供个性化、情境感知的搜索体验可生成演示文稿、社交媒体内容和学习资料等高质量多模态内容自动化处理发送邮件、安排会议和更新应用等常规任务配备创意生成、深度研究和NotebookLM Plus等专业智能体提升工作效率Agent Gallery中心提供谷歌官方、合作伙伴及用户自定义智能体的部署平台为市场、销售、开发和人力资源等业务团队提供定制化AI智能体解决方案基于谷歌云原生安全架构构建,确保企业级安全部署
Mosaic (YC W25) is building a general purpose agent for video editinga year agohttps://www.ycombinator.com/companies/mosaic-2/jobs/ru8Nwdq-founding-engineerMosaic是一种代理式视频编辑范式,允许用户在基于节点的画布上创建和运行自己的多模态视频编辑代理该职位涉及加速核心代理式视频编辑范式的开发,构建可扩展的视频处理和推理管道,创建评估体系,并参与高层设计决策Mosaic的初始原型在Google Gemini Kaggle竞赛中获得25,000美元大奖,并在Y Combinator W25批次中斩获最佳演示奖团队由前特斯拉工程师组成,现招募创始工程师共同将视频编辑效率从小时级提升至秒级
Agency vs. Control vs. Reliability in Agent Designa year agohttps://fin.ai/research/agency-control-reliability-the-tradeoffs-in-customer-sup...高代理任务要求代理能够胜任、可靠且一致地行动,尤其在客户支持等高价值应用场景中。客户支持具有挑战性,因为存在知识缺口、用户缺乏耐心和时间限制,与理想环境中代理具备完整知识和宽容条件形成鲜明对比。如Anthropic的'computer use'和OpenAI的DeepResearch等大语言模型在高代理任务上取得进展,但Fin等实际应用仍面临可靠性问题。客户对代理的可靠性和控制力有很高期待,尤其在订阅管理、退款和上下文收集等敏感任务中。衡量代理性能需通过模拟具有预定义结果、用户提示和停止条件的任务来评估可靠性与一致性。'pass^k'指标比'pass@k'更严格,要求多次重复测试中保持稳定成功,这对客户支持可靠性至关重要。代理能力与可靠性呈反比关系——高代理能力的代理在复杂任务中往往表现不稳定。'Give Fin a Task'(GFAT)代理通过分步指令平衡代理能力与控制力,显著提升了简单和中等难度任务的可靠性。GFAT的可组合性允许将复杂任务拆解为更简单可靠的步骤,从而提升整体性能和客户满意度。早期基准测试显示,GFAT通过约束代理能力并强调结构化执行,在简单和中等难度任务上显著提高了可靠性。
12-factor Agents: Patterns of reliable LLM applicationsa year agohttps://github.com/humanlayer/12-factor-agents项目'12-factor-agents'是开源的,欢迎贡献。Dex研究了多种AI智能体框架,发现大多数'AI智能体'缺乏真正的自主行为。文章介绍了'12-factor agents'作为构建可靠、可扩展且可维护的LLM驱动软件的方法论。关键要素包括自然语言到工具调用的转换、拥有提示词和上下文窗口、以及将智能体设计为无状态归约器。传统DAG方法与让LLM动态决定工作流路径的智能体形成对比。SaaS构建者的常见历程是:从框架起步,但往往需要为质量而彻底重构。文章强调可将智能体构建中的模块化概念集成到现有产品中,实现快速部署。免责声明指出本文并非对现有框架的批评,并认可其对AI生态的贡献。作者分享了更多关于高效构建智能体的延伸阅读资源和链接。
LLMs Do Not Predict the Next Worda year agohttps://www.harysdalvi.com/blog/llms-dont-predict-next-word大语言模型最初通过预测序列中的下一个token进行训练,这个过程称为下一token预测目标。指令微调通过使用专为提示设计的数据集训练大语言模型,使其适应特定任务,从而提升零样本学习能力。基于人类反馈的强化学习(RLHF)是关键训练步骤,它使大语言模型不再局限于简单的下一token预测,而是优化输出以符合人类偏好。RLHF包含两个主要阶段:奖励建模(训练模型预测人类偏好)和近端策略优化(PPO),后者在保持模型原始行为的基础上调整参数以最大化奖励。大语言模型可视为一种智能体:其生成token的行为类似于棋类模型选择制胜步骤,目标都是最大化奖励。AI智能体的概念将大语言模型的token输出映射到现实世界行动,使其突破纯文本生成范畴,拓展了应用边界。值得注意的是,经过RLHF训练的大语言模型有时会产生看似优秀实则存在缺陷的输出,这种现象被称为奖励破解。大语言模型的训练机制与能力表明,它们不仅是下一token预测器,更是融合人类偏好与任务表现的复杂优化系统。
Principles for Building One-Shot AI Agentsa year agohttps://edgebit.io/blog/automated-dependency-updates-with-ai/EdgeBit是一个安全平台,帮助团队通过诸如依赖自动修复等功能发现和修复漏洞。依赖自动修复利用可达性引擎识别关键更新,节省工程师时间。单次AI代理无需人工干预即可自动化复杂任务,如EdgeBit的依赖自动修复所示。EdgeBit对更新的信心源自静态分析、依赖计算和代理工作流。从基于流水线到代理工作流的转变旨在保持确定性的同时增加灵活性。强调使用针对性工具而非通用工具以防止错误并提高效率。通过硬性失败和软性失败确保正确性,硬性失败在超出问题范围时终止流程。LLM的持久性可能导致循环;EdgeBit通过针对性工具和失败处理机制缓解此问题。EdgeBit的单次代理方法可应用于其他代码维护任务以实现效率提升。
Inner Loop Agentsa year agohttps://timkellogg.me/blog/2025/04/19/inner-loops内循环代理允许大语言模型直接执行工具调用而无需客户端干预常规大语言模型依赖客户端解析和执行工具,而内循环代理在内部处理这一过程大语言模型通过生成带有工具调用的文本和特殊标记(<|eot|>)来标识完成状态Ollama和vLLM等软件负责解析大语言模型输出,并在遇到<|eot|>标记前持续管理循环内循环代理支持在大语言模型思考过程中并发使用工具,从而提升效率o3和o4-mini等模型通过强化学习训练获得工具使用能力,专为智能代理场景优化大语言模型未经专门训练就能有效使用新工具的涌现能力目前仍停留在理论阶段当前工具使用的实现方案包括MCP描述文件或专门针对工具使用训练的模型谷歌的Agent 2 Agent(A2A)协议为不同微调的大语言模型代理间通信提供支持训练大语言模型使用工具时,相关工具不必与模型部署在同一主机上执行
Mission Impossible: Managing AI Agents in the Real Worlda year agohttps://medium.com/gitconnected/mission-impossible-managing-ai-agents-in-the-rea...AI工具正在快速发展,使得在软件开发中保持对AI代理的控制变得具有挑战性。有效管理AI代理需要周密规划和设定明确准则,以避免常见陷阱。关键技术包括选择合适的工具、界定工作范围、制定详细计划并根据需要调整。输入材料(代码、图表、数据、提示)的质量显著影响AI代理的成功率。尽管AI辅助十分便捷,理解并跟进工具文档仍至关重要。规划被强调为AI代理工作中90%的任务,可复用的计划对效率提升必不可少。氛围编程(随意、非结构化的请求)不适用于生产代码,因其常导致不可靠的输出。应通过模块化的小步骤引导代理,防止偏离方向并确保成功实施。严格测试计划并手动验证AI生成代码是避免潜在问题的必要措施。利用AI进行重构能显著减少技术债务并提升代码可维护性。使用AI工具时需重视成本控制,包括设置支出限额和选择合适的模型。模型上下文协议(MCP)被提出作为代理通信方法,但其并未提供新功能。
CMU TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasksa year agohttps://arxiv.org/abs/2412.14161TheAgentCompany被提出作为一个可扩展的基准测试平台,用于评估AI代理在现实世界专业任务中的表现。AI代理在一个模拟的小型软件公司环境中接受测试,执行网页浏览、编程和沟通等模拟任务。研究评估了基于闭源API和开源权重语言模型(LMs)的基线代理表现。最具竞争力的AI代理能自主完成24%的任务,这表明其在简单任务自动化方面具有潜力。但更复杂、周期长的任务仍超出当前AI系统的能力范围。该研究强调了AI产业应用对劳动力市场影响的经济政策启示。
Show HN: AG-UI Protocol – Bring Agents into Frontend Applicationsa year agohttps://github.com/ag-ui-protocol/ag-uiAG-UI 是一个开放的、轻量级的、基于事件的代理-人交互协议它通过16种标准事件类型,规范了AI代理与前端应用的连接方式AG-UI 包含中间件层,确保在不同环境和事件传输机制中的兼容性基于真实需求开发,并与CopilotKit社区及主流代理框架合作构建支持LangGraph、Mastra、CrewAI和AG2等多个热门代理框架实现代理聊天、双向状态同步、生成式UI和人机协同等特性提供React及WhatsApp、微信等通讯平台的即用型客户端库举办'如何将AI代理引入前端应用'和'AG-UI协议工作组'等活动欢迎社区贡献共同完善AG-UI
Show HN: Muscle-Mem, a behavior cache for AI agentsa year agohttps://github.com/pig-dot-dev/muscle-memMuscle-mem 是一个 Python SDK,专为 AI 代理设计,能够记录并回放工具调用模式,以确定性方式完成任务。其目标是减少重复任务中的大语言模型使用,从而提高速度、降低结果波动性并节省 token 成本。Muscle-mem 并非代理框架,而是可与现有代理集成的工具,实现安全工具复用。该系统通过 Checks 机制进行缓存验证,判断当前环境是否适合执行缓存操作。项目计划于 2025 年 5 月 7 日发布演示版,5 月 8 日开源。SDK 包含 Engine 类(管理任务执行与缓存)和 @engine.tool 装饰器(记录工具调用)。Checks 通过捕获并对比工具调用前后的环境特征来验证缓存命中有效性。示例演示了使用时间戳和一秒过期策略对 hello 工具进行缓存验证。欢迎通过 Muscle Mem 的 Discord 频道和 GitHub 仓库提交反馈。
An MCP-powered agent in 50 lines of codea year agohttps://huggingface.co/blog/tiny-agentsMCP(模型上下文协议)是一种标准API,用于暴露可与大型语言模型(LLMs)集成的工具集。代理(Agent)可以通过在MCP客户端上实现简单的while循环来构建,这使得自主AI的实现更加简单。文章展示了一个用TypeScript实现的微型代理,该代理连接到本地MCP服务器以使用文件系统访问和网页浏览等工具。最新的大型语言模型原生支持函数调用(工具使用),无需手动设计提示即可简化工具集成。MCP客户端连接到服务器,将其工具格式化为适合LLM使用的形式,并处理工具调用和响应。代理的控制流程包括用于完成任务和回答用户问题的工具,必要时会中断循环。下一步计划包括尝试不同模型和推理服务提供商,并欢迎贡献。" 注:根据技术文档翻译规范调整了术语一致性(如"Agent"统一译为"代理"),将被动语态转换为中文主动表达(如"can be implemented"译为"可以通过...实现并重组了长句结构(如第四句拆分处理)。保留了专业缩写(LLM/MCP)和代码名称(TypeScript)的原文形式。
Show HN: Pixelagent – Build your Stateful Agent Framework in 200 lines of codea year agohttps://github.com/pixeltable/pixelagentPixeltable 提供了一个声明式框架,用于构建具有记忆、工具调用和多模态支持等功能的定制化智能体应用。核心特性包括数据编排、原生多模态支持(文本、图像、音频、视频)、类型安全的 Python 框架以及模型无关性。该平台通过自动记录消息、工具调用和性能指标实现可观测性。智能体扩展支持添加推理、反思、记忆、知识库和团队工作流功能。用户可实现带有语义搜索的长期记忆系统,并将自定义 Python 函数作为工具集成。Pixeltable 支持 ReAct 模式的分步推理与规划,提供结构化提示和动态系统更新。智能体记忆自动持久化存储于表中,工具调用历史可被访问和定制。该框架支持将智能体蓝图转换为可发布至 PyPI 的分布式包。安装简便,针对不同 AI 模型(如 Anthropic、OpenAI)提供特定的依赖配置。提供涵盖核心概念、高级模式和专项技术的教程与示例代码。
Agent2Agent – A Technical Deep Dive into the Protocol's Core Logica year agohttps://hello-jp.net/building-beyond-the-buzz/a2a-technical-deep-dive由Y-Combinator支持的初创公司Firecrawl正在招聘AI代理,负责内容生成、编程和客户支持岗位,月薪5000美元。谷歌提出的Agent2Agent(A2A)协议是一种开放式通信标准,通过将AI代理视为可发现的'黑箱',实现独立代理间的互操作性。A2A采用客户端-服务器模型设计,允许客户端代理访问远程代理功能而无需了解其实现细节。A2A核心组件包括:AgentCards(代理名片)、Tasks(工作指令)、Artifacts(响应内容)、Messages(会话追踪)和Push Notifications(异步处理)。A2A的RPC方法包含:tasks/send(同步处理)、tasks/sendSubscribe(流式传输)和tasks/get(获取任务状态)。A2A内存管理层负责消息队列、状态追踪和结果通信,其核心是TaskStore/TaskManager模块。A2A的实现需要针对不同请求类型的处理器,以及调用代理逻辑和更新任务状态的TaskManager。文章预告后续将对比A2A与另一种协议MCP的差异。
If an AI agent can't figure out how your API works, neither can your usersa year agohttps://stytch.com/blog/if-an-ai-agent-cant-figure-out-how-your-api-works-neithe...AI智能体如同初级开发者,通过API文档发起请求并调整参数直至成功糟糕的API开发体验(如过时示例、模糊错误)会阻碍AI智能体与人类开发者的工作效率清晰的文档、详细的错误信息和一致的API设计能同时提升AI智能体与人类的使用体验AI智能体采用类似人类问题解决的ReAct循环(推理与行动)与API交互场景对比表明:明确的错误信息和文档可显著缩短AI智能体的成功耗时AI智能体能暴露API可用性缺陷,成为改进开发者体验(DX)的诊断工具API设计最佳实践包括一致性、完整文档、详细错误信息和引导式示例在CI/CD流程中使用AI智能体进行冒烟测试,可在问题影响用户前捕获API缺陷设计简单直观的API能同时惠及AI智能体与人类开发者通过分析智能体失败案例和支持工单形成反馈闭环,持续提升API可用性