microgpt.py3 months ago#Python#GPT#Educationhttps://gist.github.com/karpathy/8627fe009c40f57531cb18360106ce95Copy Link这段代码用纯Python实现了一个极简版的GPT模型,无需任何依赖库。包含分词器、模型架构(嵌入层、注意力机制和MLP块)以及使用Adam优化器的训练过程。该模型在名字数据集上训练,训练后能够生成新的名字。这个实现具有教学意义,用不到200行代码展示了GPT的核心概念。社区贡献包括移植到其他语言(Rust、65816汇编)以及交互式可视化工具。