Nested Learning: The Illusion of Deep Learning Architectures
6 months ago
- #deep learning
- #continual learning
- #machine learning
- 论文提出了嵌套学习(NL)这一新理论范式,将机器学习模型重构为多层级嵌套优化问题的集成系统
- NL揭示了现有深度学习方法通过上下文压缩进行学习的本质,为模型动态提供了'白盒'视角
- 三大核心贡献:(1) 深度优化器——将带动量的SGD等优化器重新阐释为可学习的多级记忆模块;(2) 连续记忆系统(CMS)——将记忆泛化为按不同时间尺度更新的层级化记忆块;(3) HOPE架构——融合上述原理的自修改序列模型
- NL解决了大语言模型(LLMs)的静态性缺陷,为持续学习、自我改进和高级推理提供了蓝图
- HOPE架构在性能上超越Transformer和Titan模型,验证了NL原理的潜力
- NL将AI设计从启发式的架构堆叠,转变为对多时间尺度记忆系统的显式工程化
- 论文同时指出该范式的局限性(如大规模计算复杂度),为嵌套优化和持续学习开辟了广阔研究方向