RustGPT: A pure-Rust transformer LLM built from scratch
8 months ago
- #Rust
- #LLM
- #Transformer
- 纯Rust实现的完整大型语言模型(LLM),仅使用ndarray进行矩阵运算
- 展示从零构建基于Transformer的语言模型,包括预训练和指令微调
- 功能包含交互式聊天模式、完整反向传播(支持梯度裁剪)和模块化架构
- 核心文件:main.rs(训练流程)和llm.rs(LLM实现)
- Transformer架构组件:分词、嵌入层、Transformer块、输出投影
- 训练阶段:事实陈述预训练 + 对话AI指令微调
- 模型规格:动态词表、128维嵌入、256维隐藏层、80token最大序列长度
- 优化器:带梯度裁剪的Adam,交叉熵损失,分预训练/微调不同学习率
- 包含完整组件测试覆盖,支持优化构建版本
- 未来改进:模型持久化、性能优化、更好的采样策略、高级架构
- 贡献指南:提供初级/中级/高级不同难度的开发任务