Hasty Briefsbeta

双语

Should LLMs just treat text content as an image?

7 months ago

#AI
#OCR
#Optical Compression

深度求索的OCR论文提出将文本转换为图像，以便AI模型更高效处理，这种方法被称为'光学压缩'。
光学压缩利用图像token比文本token能承载更多信息的特性，可能让模型处理能力提升10倍。
该方法灵感来自人类记忆机制——近期记忆清晰而久远记忆模糊，暗示了处理长文本的类似思路。
离散的文本token效率低于连续的图像token，后者能在单个token中编码更多信息。
以图像形式处理文本可能更契合人类认知方式，因为人类是通过视觉而非原始文本数据来感知文字。
尽管潜力巨大，但在当前多模态大模型中实施仍面临技术障碍，尚未成为主流实践。
训练文本转图像模型需要创新方法，如生成文字图像或融合文本token知识，这大大增加了复杂度。
图书数字化进程仅完成约30%，凸显了对光学压缩等高效文本处理技术的迫切需求。