- HunyuanOCR是一款领先的端到端OCR专家视觉语言模型,采用轻量化的10亿参数设计。
- 其在多语言文档解析、文字识别、视频字幕提取等实际应用中均达到业界顶尖水平。
- 提供Transformers和vLLM双框架的快速入门指南,包含安装与模型推理步骤。
- 针对文字识别、文档解析、信息抽取、翻译等任务提供应用导向的提示模板。
- 通过微信群和Discord社群鼓励开发者社区参与。
- 技术报告由Hunyuan Vision团队等机构联合发表。
- 特别致谢PaddleOCR、MinerU等团队提供的模型与基准测试支持。