Tiny-LLM – a course of serving LLM on Apple Silicon for systems engineers
a year ago
- #tutorial
- #LLM
- #MLX
- 面向系统工程师的MLX大模型服务教程
- 代码库基于MLX数组/矩阵API,不包含高级神经网络API
- 目标:学习高效服务大语言模型(如Qwen2系列)的技术原理
- 《tiny-llm》电子书地址:https://skyzh.github.io/tiny-llm/
- 加入skyzh的Discord社区与tiny-llm学习者交流
- 结构化周更课程涵盖注意力机制、旋转位置编码、分组查询注意力等核心主题
- 进阶内容包含KV缓存、量化矩阵乘法、闪电注意力、连续批处理、推测式解码等技术
- 未来将涉及分页注意力、预填充-解码分离、调度器、并行计算、AI代理、流式API服务等前沿方向
- 暂未覆盖主题:量化/压缩的KV缓存技术