Should LLMs just treat text content as an image?
7 months ago
- #AI
- #OCR
- #Optical Compression
- 深度求索的OCR论文提出将文本转换为图像,以便AI模型更高效处理,这种方法被称为'光学压缩'。
- 光学压缩利用图像token比文本token能承载更多信息的特性,可能让模型处理能力提升10倍。
- 该方法灵感来自人类记忆机制——近期记忆清晰而久远记忆模糊,暗示了处理长文本的类似思路。
- 离散的文本token效率低于连续的图像token,后者能在单个token中编码更多信息。
- 以图像形式处理文本可能更契合人类认知方式,因为人类是通过视觉而非原始文本数据来感知文字。
- 尽管潜力巨大,但在当前多模态大模型中实施仍面临技术障碍,尚未成为主流实践。
- 训练文本转图像模型需要创新方法,如生成文字图像或融合文本token知识,这大大增加了复杂度。
- 图书数字化进程仅完成约30%,凸显了对光学压缩等高效文本处理技术的迫切需求。