GitHub - unslothai/unsloth: Fine-tuning & Reinforcement Learning for LLMs. 🦥 Train OpenAI gpt-oss, DeepSeek, Qwen, Llama, Gemma, TTS 2x faster with 70% less VRAM.
13 days ago
- #fine-tuning
- #machine-learning
- #performance-optimization
- 笔记本对新手友好,用户可轻松添加数据集、运行并部署训练好的模型。
- 多种模型性能对比(如gpt-oss、Qwen3、Gemma 3)显示速度与内存优化效果。
- Unsloth支持更快的嵌入微调(约1.8-3.3倍)及面向长上下文RL的新批处理算法。
- 新型RoPE和MLP Triton内核+无填充打包技术使训练速度提升3倍,VRAM减少30%。
- 现可在80GB GPU上训练上下文超过50万的200亿参数模型。
- 消费级GPU现已支持FP8强化学习训练。
- DeepSeek-OCR将语言理解能力提升89%。
- Unsloth Docker镜像简化了环境配置问题。
- 视觉RL现支持通过GRPO/GSPO训练视觉语言模型(VLM)。
- 量化感知训练可恢复约70%的精度损失。
- 内存高效RL技术实现VRAM减半,上下文长度扩展10倍。
- 新增对Mistral 3、Gemma 3n、Qwen3等模型的支持。
- Dynamic 2.0量化在5-shot MMLU和Aider Polyglot测试中刷新基准。
- Unsloth支持全模型类别(TTS/BERT/Mamba)、FFT及多GPU训练。
- 长上下文推理(GRPO)技术仅需5GB VRAM即可训练推理模型。
- Unsloth动态4bit量化在比BnB 4bit多耗<10% VRAM情况下精度更高。
- 新增Llama 4、Phi-4、视觉模型及Llama 3.3(700亿)支持。
- 交叉熵切割技术使80GB GPU可处理Llama 3.3(700亿)的8.9万上下文。
- 内存占用降低30%,支持4倍长的上下文窗口。
- 提供pip/Conda/Docker安装指南。
- 附gpt-oss-20b微调示例代码。
- RL支持涵盖GRPO/GSPO/FP8训练/DrGRPO/DAPO/PPO等算法。
- 基准测试展示Unsloth的速度优势、VRAM节省及长上下文处理能力。
- 致谢贡献者及引用相关开源库。