Hasty Briefsbeta

双语

Pretraining a LLM with less than $50 budget which outperforms Google BERT

9 months ago
  • #Spiking Neural Networks
  • #LLM
  • #Liquid Time Constants
  • 安全研究员Harish SG仅用不到50美元的预算,在Google Colab的A100-40GB单卡GPU上构建了名为Arthemis的大语言模型
  • Arthemis创新性地整合了脉冲神经网络(SNN)和液态时间常数网络(LTC),通过生物启发机制提升模型效率与性能
  • 其中SNN通过事件驱动处理和时序动态模拟生物神经元通信,LTC则能动态调整时间常数实现多速率信息处理
  • 该模型对LLaMA架构进行改造:用SpikingAttention替代标准注意力机制,将前馈网络替换为LTCFeedForward模块
  • 预训练阶段仅使用vesteinn/babylm数据集的1亿token,虽数据量有限但仍实现连贯语句生成能力
  • 后通过Alpaca数据集进行指令微调,受限于训练数据规模,部分响应存在准确性不足问题
  • 评估显示在Hella Swag和Arc-e等任务中,Arthemis LM以极少的训练token和资源消耗超越Google BERT表现
  • 同期开发的嵌入模型在MTEB基准测试中与Jina-embeddings-v2-base性能相当
  • 该项目验证了生物启发神经网络在资源受限条件下开发高效大模型的潜力,但当前版本尚不适合生产环境部署