Show HN: Minimal DL library in C – 24 NAIVE CUDA/CPU ops, autodiff, Python API
2 months ago
- #ML systems
- #Deep Learning
- #GPU programming
- ML系统和GPU编程实践:构建端到端的小型深度学习框架
- Blackwell优化的CUDA内核正在积极开发中
- PyTorch内部机制解析:核心模块图解与注释
- 计划出版书籍:详细记录设计过程与经验教训
- 用C语言实现的极简DL库:包含CUDA/CPU算子、自动微分与反向传播引擎
- 支持numpy式跨步/视图和复杂索引的张量抽象
- Python API绑定:算子/层/模型的接口封装
- 训练组件:优化器/权重初始化器/参数保存加载
- 配套工具:计算图可视化器与自动生成测试
- 中间张量自动清理的内存管理机制
- 纯手工打造的ML系统学习项目(未使用AI辅助)
- 提供Conv-Net和MLP在GPU/CPU上的定义与训练命令
- 模型计算图可视化与生成测试代码的运行演示
- 运行生成测试代码的环境配置说明
- CIFAR-10数据集下载指南