I traced 3,177 API calls to see what 4 AI coding tools put in the context window

8 days ago

作者开发了Context Lens工具，用于分析不同AI编程工具如何使用上下文窗口中的token。
测试了四种工具（Claude Opus、Claude Sonnet、Codex、Gemini）在同一个Express.js代码库中的错误修复任务。
所有工具都成功修复了错误，但token使用量差异巨大：Opus（2.3万-3.5万）、Sonnet（4.3万-7万）、Codex（2.9万-4.7万）、Gemini（17.9万-35万）。
Opus效率最高，通过git历史记录精确定位错误，仅需最少代码阅读，但携带大量'工具定义'开销（占上下文的69%）。
Sonnet采用彻底的方法，阅读测试文件和源代码，上下文使用更平衡但token总量更高。
Codex使用类Unix命令（grep/sed）进行针对性代码阅读，具有可预测性和高效率，工具定义开销仅6%。
Gemini没有工具定义开销，但通过转储整个文件和git历史记录（96%为工具结果）激进消耗上下文，token使用量波动极大。
所有工具均未主动管理上下文预算，效率差异源于调查策略而非刻意优化。
Context Lens是开源工具，可实时分析LLM API调用，帮助开发者理解token使用情况。

Hasty Briefsbeta