Show HN: Tiny Diffusion – A character-level text diffusion model from scratch
4 months ago
- #text-generation
- #language-model
- #diffusion
- 一个基于字符级语言扩散模型的文本生成器,采用nanochat GPT架构并在Tiny Shakespeare数据集上训练
- 模型参数:1070万参数,6层结构,6个注意力头,384维嵌入,256序列长度,128步扩散过程
- 代码库包含训练脚本、采样脚本和扩散过程可视化脚本
- 提供预训练权重文件(weights/diffusion_model.pt)
- 训练耗时约30分钟(使用4块A100显卡训练20,000步)
- 支持生成文本样本并可视化扩散过程
- 包含受生命游戏启发的采样实验
- 目录结构:model.py(模型定义)、training.py(训练脚本)、sample.py(采样脚本)、data/(数据)、weights/(权重)、animations/(动画)