The Fundamental Limits of LLMs at Scale
6 months ago
- #LLM
- #Machine Learning
- #Theoretical Limits
- 大语言模型(LLMs)受益于规模化扩展,但面临五大基础性局限:幻觉生成、上下文压缩、推理退化、检索脆弱性以及多模态失准。
- 理论综合将这些局限性与计算、信息和学习的基本限制联系起来,提供了一个统一框架。
- 可计算性与不可计算性意味着无法消除的误差——对角化证明必然存在失效输入,不可判定查询会导致无限失效集。
- 信息论约束限定了准确率上限,有限描述长度必然产生压缩误差,长尾知识需要极高的样本复杂度。
- 几何与计算效应会使长上下文被压缩至低于名义长度,原因包括位置编码欠训练、表征衰减和softmax拥挤效应。
- 基于似然训练更偏好模式补全而非逻辑推理,而受限于token数量的检索会遭遇语义漂移和耦合噪声问题。
- 多模态扩展继承了浅层跨模态对齐的缺陷,相关定理与实证研究揭示了规模化带来的收益、饱和点及固有局限。
- 实用缓解路径包括有界预言检索、位置编码课程学习,以及稀疏或分层注意力机制。