Hasty Briefsbeta

双语

Qwen3-4B-Thinking-2507

9 months ago

#AI
#Language Model
#Qwen3

Qwen3-4B-Thinking-2507在推理任务上实现重大突破，包括逻辑推理、数学运算、科学分析、编程能力及学术基准测试
增强的基础能力涵盖指令跟随、工具调用、文本生成以及与人类偏好的对齐
支持256K长文本上下文理解，并针对复杂推理任务扩展了思维链长度
模型架构包含40亿参数、36层网络结构，采用Q32头与KV8头的注意力机制，原生支持262,144的上下文长度
性能基准测试显示在知识储备、推理能力、编程水平、对齐效果、智能体任务及多语言处理方面均有提升
提供Hugging Face transformers的快速入门指南，包含文本生成的代码示例
部署方案支持sglang/vLLM/Ollama/LMStudio/MLX-LM/llama.cpp/KTransformers等主流推理框架
通过Qwen-Agent增强智能体功能，简化工具调用模板和结果解析器
最佳实践包括推荐采样参数设置、合理输出长度配置及标准化评测输出格式
提供Qwen3技术报告的规范引用信息