Hasty Briefsbeta

双语

25 Years of Eggs

2 months ago
  • #AI
  • #Data Extraction
  • #Receipt Analysis
  • 作者自2001年起开始扫描收据,等待技术成熟以提取数据。
  • 使用AI编程助手(Codex和Claude)在14天内处理了11,345张收据,消耗了16亿token。
  • 因收据底色存在「白色色差」问题导致分割困难,最终采用Meta的SAM3模型解决。
  • 发现Claude能完美识别收据内容,无需旋转图像预处理。
  • 用PaddleOCR-VL替代Tesseract提升OCR效果,通过动态分片处理超长收据。
  • 信息提取方式从正则表达式升级为Codex/Claude,准确率与效率显著提升。
  • 基于人工标注数据构建的分类器准确率超99%,优于基准真值。
  • 最终数据准确率达96%,错误主要来自早期扫描件的OCR识别问题。
  • 25年间共购买8,604枚鸡蛋,涉及589张收据,总支出1,972美元。
  • 组合专用模型(SAM3、PaddleOCR、Codex、Claude)实现最优效果。