Hasty Briefsbeta

双语

Pretraining a LLM with less than $50 budget which outperforms Google BERT

9 months ago

#Spiking Neural Networks
#LLM
#Liquid Time Constants

安全研究员Harish SG仅用不到50美元的预算，在Google Colab的A100-40GB单卡GPU上构建了名为Arthemis的大语言模型
Arthemis创新性地整合了脉冲神经网络(SNN)和液态时间常数网络(LTC)，通过生物启发机制提升模型效率与性能
其中SNN通过事件驱动处理和时序动态模拟生物神经元通信，LTC则能动态调整时间常数实现多速率信息处理
该模型对LLaMA架构进行改造：用SpikingAttention替代标准注意力机制，将前馈网络替换为LTCFeedForward模块
预训练阶段仅使用vesteinn/babylm数据集的1亿token，虽数据量有限但仍实现连贯语句生成能力
后通过Alpaca数据集进行指令微调，受限于训练数据规模，部分响应存在准确性不足问题
评估显示在Hella Swag和Arc-e等任务中，Arthemis LM以极少的训练token和资源消耗超越Google BERT表现
同期开发的嵌入模型在MTEB基准测试中与Jina-embeddings-v2-base性能相当
该项目验证了生物启发神经网络在资源受限条件下开发高效大模型的潜力，但当前版本尚不适合生产环境部署