Show HN: I wrote inference for Qwen3 0.6B in C/CUDA
5 months ago
- #C/CUDA
- #Deep Learning
- #Qwen3-0.6B
- 克隆仓库:`git clone https://github.com/asdf93074/qwen.c`
- 从Hugging Face下载`model.safetensors`并放置到仓库根目录
- 使用`make release chat`构建实现,生成供`chat.py`调用的共享库
- 通过`make run`运行模型(以`run.c`为入口点)
- 仅支持CUDA后端
- 专为Qwen3-0.6B设计,但可通过修改硬编码参数适配其他Qwen3模型
- 当前为朴素实现的内核,存在优化空间
- 最大token解码可能导致重复性输出
- 支持通过Python加载safetensors或权重文件
- KV缓存和RoPE矩阵长度限制为2048以提升内存效率
- 未来可扩展方向:优化内核、动态KV缓存、CPU卸载、量化支持
- 采用MIT许可证