25 Years of Eggs
2 months ago
- #AI
- #Data Extraction
- #Receipt Analysis
- 作者自2001年起开始扫描收据,等待技术成熟以提取数据。
- 使用AI编程助手(Codex和Claude)在14天内处理了11,345张收据,消耗了16亿token。
- 因收据底色存在「白色色差」问题导致分割困难,最终采用Meta的SAM3模型解决。
- 发现Claude能完美识别收据内容,无需旋转图像预处理。
- 用PaddleOCR-VL替代Tesseract提升OCR效果,通过动态分片处理超长收据。
- 信息提取方式从正则表达式升级为Codex/Claude,准确率与效率显著提升。
- 基于人工标注数据构建的分类器准确率超99%,优于基准真值。
- 最终数据准确率达96%,错误主要来自早期扫描件的OCR识别问题。
- 25年间共购买8,604枚鸡蛋,涉及589张收据,总支出1,972美元。
- 组合专用模型(SAM3、PaddleOCR、Codex、Claude)实现最优效果。