Hasty Briefsbeta

双语

Breaking Quadratic Barriers: A Non-Attention LLM for Ultra-Long Context Horizons

a year ago

#Machine Learning
#Efficient Architectures
#Large Language Models

提出了一种新型的非注意力机制架构，适用于具备超长上下文窗口处理能力（数十万至百万量级token）的大语言模型。
通过消除token间的注意力机制，避免了传统Transformer架构中二次方的内存与计算开销。
融合了四大核心技术：基于S4启发的状态空间模块实现近线性序列长度扩展、多分辨率卷积层捕捉局部上下文、轻量级循环监督器维护全局隐状态，以及检索增强的外部存储系统实现高效的高阶语义块嵌入存取。