Hasty Briefsbeta

双语

The Fundamental Limits of LLMs at Scale

6 months ago
  • #LLM
  • #Machine Learning
  • #Theoretical Limits
  • 大语言模型(LLMs)受益于规模化扩展,但面临五大基础性局限:幻觉生成、上下文压缩、推理退化、检索脆弱性以及多模态失准。
  • 理论综合将这些局限性与计算、信息和学习的基本限制联系起来,提供了一个统一框架。
  • 可计算性与不可计算性意味着无法消除的误差——对角化证明必然存在失效输入,不可判定查询会导致无限失效集。
  • 信息论约束限定了准确率上限,有限描述长度必然产生压缩误差,长尾知识需要极高的样本复杂度。
  • 几何与计算效应会使长上下文被压缩至低于名义长度,原因包括位置编码欠训练、表征衰减和softmax拥挤效应。
  • 基于似然训练更偏好模式补全而非逻辑推理,而受限于token数量的检索会遭遇语义漂移和耦合噪声问题。
  • 多模态扩展继承了浅层跨模态对齐的缺陷,相关定理与实证研究揭示了规模化带来的收益、饱和点及固有局限。
  • 实用缓解路径包括有界预言检索、位置编码课程学习,以及稀疏或分层注意力机制。