Hasty Briefsbeta

Bilingual

Show HN: I wrote inference for Qwen3 0.6B in C/CUDA

5 months ago

#C/CUDA
#Deep Learning
#Qwen3-0.6B

克隆仓库：`git clone https://github.com/asdf93074/qwen.c`
从Hugging Face下载`model.safetensors`并放置到仓库根目录
使用`make release chat`构建实现，生成供`chat.py`调用的共享库
通过`make run`运行模型（以`run.c`为入口点）
仅支持CUDA后端
专为Qwen3-0.6B设计，但可通过修改硬编码参数适配其他Qwen3模型
当前为朴素实现的内核，存在优化空间
最大token解码可能导致重复性输出
支持通过Python加载safetensors或权重文件
KV缓存和RoPE矩阵长度限制为2048以提升内存效率
未来可扩展方向：优化内核、动态KV缓存、CPU卸载、量化支持
采用MIT许可证