Systematically generating tests that would have caught Anthropic's top‑K bug
4 months ago
- #bugs
- #automation
- #testing
- 大多数测试策略都会遗漏罕见的边缘情况,直到客户在生产环境中发现它们。
- 该系统能自动为罕见错误生成针对性单元测试,包括Anthropic的近似top-K错误。
- 采用分数证明分解技术生成单元测试,无需依赖错误重现代码。
- 该流程首先将定理识别并编码为基于属性的测试(PBT)。
- 通过递归分解将定理拆分为更小的子定理,每个子定理都被编码为PBT。
- 持续分解直到输入空间足够小,从而高效捕获罕见错误。
- 分数证明使计算复杂度随错误罕见度呈对数级增长,极具效率优势。
- 该方法可扩展应用到实际代码库和集群行为分析。
- 正在训练定理模型来自动推理程序正确性。