Hasty Briefsbeta

双语

Dynamic Large Concept Models: Latent Reasoning in an Adaptive Semantic Space

4 months ago
  • #Language Models
  • #Machine Learning
  • #Scaling Laws
  • 提出动态大概念模型(DLCM),一种将计算从词元转移到压缩概念空间的分层语言建模框架
  • DLCM端到端发现可变长度概念,无需预定义语言单元,提升推理效率
  • 首次提出压缩感知的缩放定律,实现固定FLOPs下的理论计算资源分配
  • 开发解耦的μP参数化方法,确保不同宽度和压缩机制下的训练稳定性
  • 在匹配推理FLOPs条件下,12个零样本基准任务平均提升+2.69%