Hasty Briefsbeta

双语

RustGPT: A pure-Rust transformer LLM built from scratch

8 months ago
  • #Rust
  • #LLM
  • #Transformer
  • 纯Rust实现的完整大型语言模型(LLM),仅使用ndarray进行矩阵运算
  • 展示从零构建基于Transformer的语言模型,包括预训练和指令微调
  • 功能包含交互式聊天模式、完整反向传播(支持梯度裁剪)和模块化架构
  • 核心文件:main.rs(训练流程)和llm.rs(LLM实现)
  • Transformer架构组件:分词、嵌入层、Transformer块、输出投影
  • 训练阶段:事实陈述预训练 + 对话AI指令微调
  • 模型规格:动态词表、128维嵌入、256维隐藏层、80token最大序列长度
  • 优化器:带梯度裁剪的Adam,交叉熵损失,分预训练/微调不同学习率
  • 包含完整组件测试覆盖,支持优化构建版本
  • 未来改进:模型持久化、性能优化、更好的采样策略、高级架构
  • 贡献指南:提供初级/中级/高级不同难度的开发任务