Hasty Briefsbeta

Bilingual

Show HN: I wrote inference for Qwen3 0.6B in C/CUDA

5 months ago
  • #C/CUDA
  • #Deep Learning
  • #Qwen3-0.6B
  • 克隆仓库:`git clone https://github.com/asdf93074/qwen.c`
  • 从Hugging Face下载`model.safetensors`并放置到仓库根目录
  • 使用`make release chat`构建实现,生成供`chat.py`调用的共享库
  • 通过`make run`运行模型(以`run.c`为入口点)
  • 仅支持CUDA后端
  • 专为Qwen3-0.6B设计,但可通过修改硬编码参数适配其他Qwen3模型
  • 当前为朴素实现的内核,存在优化空间
  • 最大token解码可能导致重复性输出
  • 支持通过Python加载safetensors或权重文件
  • KV缓存和RoPE矩阵长度限制为2048以提升内存效率
  • 未来可扩展方向:优化内核、动态KV缓存、CPU卸载、量化支持
  • 采用MIT许可证