Hasty Briefsbeta

双语

Dynamic Large Concept Models: Latent Reasoning in an Adaptive Semantic Space

4 months ago

#Language Models
#Machine Learning
#Scaling Laws

提出动态大概念模型（DLCM），一种将计算从词元转移到压缩概念空间的分层语言建模框架
DLCM端到端发现可变长度概念，无需预定义语言单元，提升推理效率
首次提出压缩感知的缩放定律，实现固定FLOPs下的理论计算资源分配
开发解耦的μP参数化方法，确保不同宽度和压缩机制下的训练稳定性
在匹配推理FLOPs条件下，12个零样本基准任务平均提升+2.69%