Hasty Briefsbeta

双语

The Fundamental Limits of LLMs at Scale

6 months ago

#LLM
#Machine Learning
#Theoretical Limits

大语言模型（LLMs）受益于规模化扩展，但面临五大基础性局限：幻觉生成、上下文压缩、推理退化、检索脆弱性以及多模态失准。
理论综合将这些局限性与计算、信息和学习的基本限制联系起来，提供了一个统一框架。
可计算性与不可计算性意味着无法消除的误差——对角化证明必然存在失效输入，不可判定查询会导致无限失效集。
信息论约束限定了准确率上限，有限描述长度必然产生压缩误差，长尾知识需要极高的样本复杂度。
几何与计算效应会使长上下文被压缩至低于名义长度，原因包括位置编码欠训练、表征衰减和softmax拥挤效应。
基于似然训练更偏好模式补全而非逻辑推理，而受限于token数量的检索会遭遇语义漂移和耦合噪声问题。
多模态扩展继承了浅层跨模态对齐的缺陷，相关定理与实证研究揭示了规模化带来的收益、饱和点及固有局限。
实用缓解路径包括有界预言检索、位置编码课程学习，以及稀疏或分层注意力机制。