Hasty Briefsbeta

双语

Systematically generating tests that would have caught Anthropic's top‑K bug

4 months ago

#bugs
#automation
#testing

大多数测试策略都会遗漏罕见的边缘情况，直到客户在生产环境中发现它们。
该系统能自动为罕见错误生成针对性单元测试，包括Anthropic的近似top-K错误。
采用分数证明分解技术生成单元测试，无需依赖错误重现代码。
该流程首先将定理识别并编码为基于属性的测试(PBT)。
通过递归分解将定理拆分为更小的子定理，每个子定理都被编码为PBT。
持续分解直到输入空间足够小，从而高效捕获罕见错误。
分数证明使计算复杂度随错误罕见度呈对数级增长，极具效率优势。
该方法可扩展应用到实际代码库和集群行为分析。
正在训练定理模型来自动推理程序正确性。