DeepSeek OCR
4 months ago
- #DeepSeek-OCR
- #LLM-centric
- #visual-text compression
- DeepSeek-OCR的发布旨在从大语言模型(LLM)中心视角探索视觉文本压缩技术。
- 安装需要CUDA 11.8和Torch 2.6.0环境,文档中提供了Conda的安装步骤及必要依赖包说明。
- 详细说明了运行模型所需的VLLM和Transformers配置,包括脚本路径与参数设置。
- 该模型支持多种分辨率模式:Tiny(512×512)、Small(640×640)、Base(1024×1024)、Large(1280×1280)以及Dynamic(高达模式)。
- 针对文档转换、OCR识别、图像描述、图表解析等任务,提供了不同的提示词模板。
- 致谢部分列出了对本项目有贡献的多个开源模型与基准测试集。