Show HN: OCR pipeline for ML training (tables, diagrams, math, multilingual)
a year ago
- #OCR
- #Educational Technology
- #Machine Learning
- 专为从试卷等教育资料中提取结构化数据而设计的OCR系统,优化适配机器学习训练需求
- 支持多语种文本、数学公式、表格、图表及示意图的识别
- 对提取元素进行语义标注并提供上下文解释,包括对视觉内容的自然语言描述
- 支持日语、韩语和英语,可定制扩展其他语言
- 生成JSON或Markdown格式的AI就绪输出,包含数学表达式描述和图表标题说明
- 在EJU生物、东大数学等真实学术数据集上达到90-95%的准确率
- 能精准处理包含密集科学内容、复杂公式和视觉元素的版式
- 集成DocLayout-YOLO、Google Vision API、Gemini Pro Vision、MathPix OCR、OpenAI API和OpenCV等技术栈
- 提供EJU生物、东大数学等真实资料的输出样例,附带英文翻译的语义上下文
- 采用MIT开源许可,鼓励社区驱动的功能增强与协作开发