Nested Learning: The Illusion of Deep Learning Architectures

6 months ago

论文提出了嵌套学习（NL）这一新理论范式，将机器学习模型重构为多层级嵌套优化问题的集成系统
NL揭示了现有深度学习方法通过上下文压缩进行学习的本质，为模型动态提供了'白盒'视角
三大核心贡献：(1) 深度优化器——将带动量的SGD等优化器重新阐释为可学习的多级记忆模块；(2) 连续记忆系统（CMS）——将记忆泛化为按不同时间尺度更新的层级化记忆块；(3) HOPE架构——融合上述原理的自修改序列模型
NL解决了大语言模型（LLMs）的静态性缺陷，为持续学习、自我改进和高级推理提供了蓝图
HOPE架构在性能上超越Transformer和Titan模型，验证了NL原理的潜力
NL将AI设计从启发式的架构堆叠，转变为对多时间尺度记忆系统的显式工程化
论文同时指出该范式的局限性（如大规模计算复杂度），为嵌套优化和持续学习开辟了广阔研究方向

Hasty Briefsbeta