GitHub - unslothai/unsloth: Fine-tuning & Reinforcement Learning for LLMs. 🦥 Train OpenAI gpt-oss, DeepSeek, Qwen, Llama, Gemma, TTS 2x faster with 70% less VRAM.

3 months ago

#fine-tuning
#machine-learning
#performance-optimization

笔记本对新手友好，用户可轻松添加数据集、运行并部署训练好的模型。
多种模型性能对比（如gpt-oss、Qwen3、Gemma 3）显示速度与内存优化效果。
Unsloth支持更快的嵌入微调（约1.8-3.3倍）及面向长上下文RL的新批处理算法。
新型RoPE和MLP Triton内核+无填充打包技术使训练速度提升3倍，VRAM减少30%。
现可在80GB GPU上训练上下文超过50万的200亿参数模型。
消费级GPU现已支持FP8强化学习训练。
DeepSeek-OCR将语言理解能力提升89%。
Unsloth Docker镜像简化了环境配置问题。
视觉RL现支持通过GRPO/GSPO训练视觉语言模型(VLM)。
量化感知训练可恢复约70%的精度损失。
内存高效RL技术实现VRAM减半，上下文长度扩展10倍。
新增对Mistral 3、Gemma 3n、Qwen3等模型的支持。
Dynamic 2.0量化在5-shot MMLU和Aider Polyglot测试中刷新基准。
Unsloth支持全模型类别（TTS/BERT/Mamba）、FFT及多GPU训练。
长上下文推理(GRPO)技术仅需5GB VRAM即可训练推理模型。
Unsloth动态4bit量化在比BnB 4bit多耗<10% VRAM情况下精度更高。
新增Llama 4、Phi-4、视觉模型及Llama 3.3(700亿)支持。
交叉熵切割技术使80GB GPU可处理Llama 3.3(700亿)的8.9万上下文。
内存占用降低30%，支持4倍长的上下文窗口。
提供pip/Conda/Docker安装指南。
附gpt-oss-20b微调示例代码。
RL支持涵盖GRPO/GSPO/FP8训练/DrGRPO/DAPO/PPO等算法。
基准测试展示Unsloth的速度优势、VRAM节省及长上下文处理能力。
致谢贡献者及引用相关开源库。

Hasty Briefsbeta

GitHub - unslothai/unsloth: Fine-tuning & Reinforcement Learning for LLMs. 🦥 Train OpenAI gpt-oss, DeepSeek, Qwen, Llama, Gemma, TTS 2x faster with 70% less VRAM.