Dynamic Large Concept Models: Latent Reasoning in an Adaptive Semantic Space
4 months ago
- #Language Models
- #Machine Learning
- #Scaling Laws
- 提出动态大概念模型(DLCM),一种将计算从词元转移到压缩概念空间的分层语言建模框架
- DLCM端到端发现可变长度概念,无需预定义语言单元,提升推理效率
- 首次提出压缩感知的缩放定律,实现固定FLOPs下的理论计算资源分配
- 开发解耦的μP参数化方法,确保不同宽度和压缩机制下的训练稳定性
- 在匹配推理FLOPs条件下,12个零样本基准任务平均提升+2.69%