Hasty Briefsbeta

双语

Show HN: OCR pipeline for ML training (tables, diagrams, math, multilingual)

a year ago
  • #OCR
  • #Educational Technology
  • #Machine Learning
  • 专为从试卷等教育资料中提取结构化数据而设计的OCR系统,优化适配机器学习训练需求
  • 支持多语种文本、数学公式、表格、图表及示意图的识别
  • 对提取元素进行语义标注并提供上下文解释,包括对视觉内容的自然语言描述
  • 支持日语、韩语和英语,可定制扩展其他语言
  • 生成JSON或Markdown格式的AI就绪输出,包含数学表达式描述和图表标题说明
  • 在EJU生物、东大数学等真实学术数据集上达到90-95%的准确率
  • 能精准处理包含密集科学内容、复杂公式和视觉元素的版式
  • 集成DocLayout-YOLO、Google Vision API、Gemini Pro Vision、MathPix OCR、OpenAI API和OpenCV等技术栈
  • 提供EJU生物、东大数学等真实资料的输出样例,附带英文翻译的语义上下文
  • 采用MIT开源许可,鼓励社区驱动的功能增强与协作开发