DeepSeek OCR

4 months ago

DeepSeek-OCR的发布旨在从大语言模型（LLM）中心视角探索视觉文本压缩技术。
安装需要CUDA 11.8和Torch 2.6.0环境，文档中提供了Conda的安装步骤及必要依赖包说明。
详细说明了运行模型所需的VLLM和Transformers配置，包括脚本路径与参数设置。
该模型支持多种分辨率模式：Tiny（512×512）、Small（640×640）、Base（1024×1024）、Large（1280×1280）以及Dynamic（高达模式）。
针对文档转换、OCR识别、图像描述、图表解析等任务，提供了不同的提示词模板。
致谢部分列出了对本项目有贡献的多个开源模型与基准测试集。

Hasty Briefsbeta