Qwen3-4B-Thinking-2507
9 months ago
- #AI
- #Language Model
- #Qwen3
- Qwen3-4B-Thinking-2507在推理任务上实现重大突破,包括逻辑推理、数学运算、科学分析、编程能力及学术基准测试
- 增强的基础能力涵盖指令跟随、工具调用、文本生成以及与人类偏好的对齐
- 支持256K长文本上下文理解,并针对复杂推理任务扩展了思维链长度
- 模型架构包含40亿参数、36层网络结构,采用Q32头与KV8头的注意力机制,原生支持262,144的上下文长度
- 性能基准测试显示在知识储备、推理能力、编程水平、对齐效果、智能体任务及多语言处理方面均有提升
- 提供Hugging Face transformers的快速入门指南,包含文本生成的代码示例
- 部署方案支持sglang/vLLM/Ollama/LMStudio/MLX-LM/llama.cpp/KTransformers等主流推理框架
- 通过Qwen-Agent增强智能体功能,简化工具调用模板和结果解析器
- 最佳实践包括推荐采样参数设置、合理输出长度配置及标准化评测输出格式
- 提供Qwen3技术报告的规范引用信息