Hasty Briefsbeta

双语

Breaking Quadratic Barriers: A Non-Attention LLM for Ultra-Long Context Horizons

a year ago
  • #Machine Learning
  • #Efficient Architectures
  • #Large Language Models
  • 提出了一种新型的非注意力机制架构,适用于具备超长上下文窗口处理能力(数十万至百万量级token)的大语言模型。
  • 通过消除token间的注意力机制,避免了传统Transformer架构中二次方的内存与计算开销。
  • 融合了四大核心技术:基于S4启发的状态空间模块实现近线性序列长度扩展、多分辨率卷积层捕捉局部上下文、轻量级循环监督器维护全局隐状态,以及检索增强的外部存储系统实现高效的高阶语义块嵌入存取。