Glyph: Scaling Context Windows via Visual-Text Compression
4 months ago
- #long-context
- #compression
- #multimodal
- Glyph是一种通过视觉-文本压缩扩展上下文长度的框架
- 它将长文本序列渲染成图像,并使用视觉-语言模型(VLMs)进行处理
- Glyph将长上下文建模转化为多模态问题,降低计算和内存成本
- 在LongBench和MRCR基准测试中提供竞争力表现,具有显著的压缩和推理加速优势
- 包含演示脚本,用于对比Glyph与Qwen3/GLM4等基线文本模型
- 基于GLM-4.1V-9B-Base构建,微调模型已发布于Hugging Face平台
- 支持vLLM加速,可提升长上下文场景下的吞吐量和响应速度
- 提供LONGBENCH、MRCR和RULER等基准测试的评估脚本
- 已知限制包括对渲染参数敏感及OCR相关挑战
- 提供研究引用信息