Hasty Briefsbeta

双语

microgpt.py

3 months ago
  • #Python
  • #GPT
  • #Education
  • 这段代码用纯Python实现了一个极简版的GPT模型,无需任何依赖库。
  • 包含分词器、模型架构(嵌入层、注意力机制和MLP块)以及使用Adam优化器的训练过程。
  • 该模型在名字数据集上训练,训练后能够生成新的名字。
  • 这个实现具有教学意义,用不到200行代码展示了GPT的核心概念。
  • 社区贡献包括移植到其他语言(Rust、65816汇编)以及交互式可视化工具。