Hasty Briefsbeta

双语

Show HN: Minimal DL library in C – 24 NAIVE CUDA/CPU ops, autodiff, Python API

2 months ago
  • #ML systems
  • #Deep Learning
  • #GPU programming
  • ML系统和GPU编程实践:构建端到端的小型深度学习框架
  • Blackwell优化的CUDA内核正在积极开发中
  • PyTorch内部机制解析:核心模块图解与注释
  • 计划出版书籍:详细记录设计过程与经验教训
  • 用C语言实现的极简DL库:包含CUDA/CPU算子、自动微分与反向传播引擎
  • 支持numpy式跨步/视图和复杂索引的张量抽象
  • Python API绑定:算子/层/模型的接口封装
  • 训练组件:优化器/权重初始化器/参数保存加载
  • 配套工具:计算图可视化器与自动生成测试
  • 中间张量自动清理的内存管理机制
  • 纯手工打造的ML系统学习项目(未使用AI辅助)
  • 提供Conv-Net和MLP在GPU/CPU上的定义与训练命令
  • 模型计算图可视化与生成测试代码的运行演示
  • 运行生成测试代码的环境配置说明
  • CIFAR-10数据集下载指南