Nanochat
7 months ago
- #AI
- #LLM
- #ChatGPT
- 安德烈·卡帕西推出nanochat项目——一个采用单体架构、代码简洁的ChatGPT风格大语言模型全栈实现
- 该项目涵盖训练、推理和网页界面,对话模型训练成本可低至100美元
- 代码库约8000行,主要使用Python(PyTorch)编写,分词器部分采用Rust实现
- 在8卡H100 NVIDIA节点(约24美元/小时)训练4小时(约100美元)即可获得连贯的对话模型
- 12小时训练版本的性能略超GPT-2,模型参数量约5.61亿,可在树莓派等设备运行
- 训练数据包含FineWeb-Edu、SmolTalk、MMLU和GSM8K数据集,并基于多种数据进行了监督微调
- 项目提供网页服务端和原生JavaScript前端,Hugging Face平台可体验测试模型
- 附赠macOS系统CPU运行脚本,包含使用示例和输出演示