Improving 15 LLMs at Coding in One Afternoon. Only the Harness Changed
3 months ago
- #harness
- #coding
- #LLM
- 文章探讨了'harness'在提升LLM编码性能中的重要性,而非仅关注模型本身。
- 当前'apply_patch'、'str_replace'等编辑工具存在局限性,导致高失败率和低效率。
- 作者提出新型编辑工具'Hashline',通过内容哈希值标记代码行,显著提升编辑精度并减少token浪费。
- 基准测试显示'Hashline'带来显著改进,部分模型成功率提升达十倍。
- Anthropic、Google等厂商采取限制性策略,封禁工具和账户,作者认为这阻碍创新。
- 研究指出工具链问题是关键改进领域,开源解决方案将为所有模型提供最佳发展路径。