Hasty Briefsbeta

双语

Nested Learning: The Illusion of Deep Learning Architectures

6 months ago
  • #deep learning
  • #continual learning
  • #machine learning
  • 论文提出了嵌套学习(NL)这一新理论范式,将机器学习模型重构为多层级嵌套优化问题的集成系统
  • NL揭示了现有深度学习方法通过上下文压缩进行学习的本质,为模型动态提供了'白盒'视角
  • 三大核心贡献:(1) 深度优化器——将带动量的SGD等优化器重新阐释为可学习的多级记忆模块;(2) 连续记忆系统(CMS)——将记忆泛化为按不同时间尺度更新的层级化记忆块;(3) HOPE架构——融合上述原理的自修改序列模型
  • NL解决了大语言模型(LLMs)的静态性缺陷,为持续学习、自我改进和高级推理提供了蓝图
  • HOPE架构在性能上超越Transformer和Titan模型,验证了NL原理的潜力
  • NL将AI设计从启发式的架构堆叠,转变为对多时间尺度记忆系统的显式工程化
  • 论文同时指出该范式的局限性(如大规模计算复杂度),为嵌套优化和持续学习开辟了广阔研究方向