Hasty Briefsbeta

双语

Glyph: Scaling Context Windows via Visual-Text Compression

6 months ago

#long-context
#compression
#multimodal

Glyph是一种通过视觉-文本压缩扩展上下文长度的框架
它将长文本序列渲染成图像，并使用视觉-语言模型(VLMs)进行处理
Glyph将长上下文建模转化为多模态问题，降低计算和内存成本
在LongBench和MRCR基准测试中提供竞争力表现，具有显著的压缩和推理加速优势
包含演示脚本，用于对比Glyph与Qwen3/GLM4等基线文本模型
基于GLM-4.1V-9B-Base构建，微调模型已发布于Hugging Face平台
支持vLLM加速，可提升长上下文场景下的吞吐量和响应速度
提供LONGBENCH、MRCR和RULER等基准测试的评估脚本
已知限制包括对渲染参数敏感及OCR相关挑战
提供研究引用信息