Hasty Briefsbeta

双语

Show HN: Tiny Diffusion – A character-level text diffusion model from scratch

4 months ago
  • #text-generation
  • #language-model
  • #diffusion
  • 一个基于字符级语言扩散模型的文本生成器,采用nanochat GPT架构并在Tiny Shakespeare数据集上训练
  • 模型参数:1070万参数,6层结构,6个注意力头,384维嵌入,256序列长度,128步扩散过程
  • 代码库包含训练脚本、采样脚本和扩散过程可视化脚本
  • 提供预训练权重文件(weights/diffusion_model.pt)
  • 训练耗时约30分钟(使用4块A100显卡训练20,000步)
  • 支持生成文本样本并可视化扩散过程
  • 包含受生命游戏启发的采样实验
  • 目录结构:model.py(模型定义)、training.py(训练脚本)、sample.py(采样脚本)、data/(数据)、weights/(权重)、animations/(动画)