Hasty Briefsbeta

双语

GitHub - unslothai/unsloth: Fine-tuning & Reinforcement Learning for LLMs. 🦥 Train OpenAI gpt-oss, DeepSeek, Qwen, Llama, Gemma, TTS 2x faster with 70% less VRAM.

13 days ago
  • #fine-tuning
  • #machine-learning
  • #performance-optimization
  • 笔记本对新手友好,用户可轻松添加数据集、运行并部署训练好的模型。
  • 多种模型性能对比(如gpt-oss、Qwen3、Gemma 3)显示速度与内存优化效果。
  • Unsloth支持更快的嵌入微调(约1.8-3.3倍)及面向长上下文RL的新批处理算法。
  • 新型RoPE和MLP Triton内核+无填充打包技术使训练速度提升3倍,VRAM减少30%。
  • 现可在80GB GPU上训练上下文超过50万的200亿参数模型。
  • 消费级GPU现已支持FP8强化学习训练。
  • DeepSeek-OCR将语言理解能力提升89%。
  • Unsloth Docker镜像简化了环境配置问题。
  • 视觉RL现支持通过GRPO/GSPO训练视觉语言模型(VLM)。
  • 量化感知训练可恢复约70%的精度损失。
  • 内存高效RL技术实现VRAM减半,上下文长度扩展10倍。
  • 新增对Mistral 3、Gemma 3n、Qwen3等模型的支持。
  • Dynamic 2.0量化在5-shot MMLU和Aider Polyglot测试中刷新基准。
  • Unsloth支持全模型类别(TTS/BERT/Mamba)、FFT及多GPU训练。
  • 长上下文推理(GRPO)技术仅需5GB VRAM即可训练推理模型。
  • Unsloth动态4bit量化在比BnB 4bit多耗<10% VRAM情况下精度更高。
  • 新增Llama 4、Phi-4、视觉模型及Llama 3.3(700亿)支持。
  • 交叉熵切割技术使80GB GPU可处理Llama 3.3(700亿)的8.9万上下文。
  • 内存占用降低30%,支持4倍长的上下文窗口。
  • 提供pip/Conda/Docker安装指南。
  • 附gpt-oss-20b微调示例代码。
  • RL支持涵盖GRPO/GSPO/FP8训练/DrGRPO/DAPO/PPO等算法。
  • 基准测试展示Unsloth的速度优势、VRAM节省及长上下文处理能力。
  • 致谢贡献者及引用相关开源库。