Hasty Briefsbeta

双语

Tiny-LLM – a course of serving LLM on Apple Silicon for systems engineers

a year ago
  • #tutorial
  • #LLM
  • #MLX
  • 面向系统工程师的MLX大模型服务教程
  • 代码库基于MLX数组/矩阵API,不包含高级神经网络API
  • 目标:学习高效服务大语言模型(如Qwen2系列)的技术原理
  • 《tiny-llm》电子书地址:https://skyzh.github.io/tiny-llm/
  • 加入skyzh的Discord社区与tiny-llm学习者交流
  • 结构化周更课程涵盖注意力机制、旋转位置编码、分组查询注意力等核心主题
  • 进阶内容包含KV缓存、量化矩阵乘法、闪电注意力、连续批处理、推测式解码等技术
  • 未来将涉及分页注意力、预填充-解码分离、调度器、并行计算、AI代理、流式API服务等前沿方向
  • 暂未覆盖主题:量化/压缩的KV缓存技术