Hasty Briefsbeta

双语

Qwen3-4B-Thinking-2507

9 months ago
  • #AI
  • #Language Model
  • #Qwen3
  • Qwen3-4B-Thinking-2507在推理任务上实现重大突破,包括逻辑推理、数学运算、科学分析、编程能力及学术基准测试
  • 增强的基础能力涵盖指令跟随、工具调用、文本生成以及与人类偏好的对齐
  • 支持256K长文本上下文理解,并针对复杂推理任务扩展了思维链长度
  • 模型架构包含40亿参数、36层网络结构,采用Q32头与KV8头的注意力机制,原生支持262,144的上下文长度
  • 性能基准测试显示在知识储备、推理能力、编程水平、对齐效果、智能体任务及多语言处理方面均有提升
  • 提供Hugging Face transformers的快速入门指南,包含文本生成的代码示例
  • 部署方案支持sglang/vLLM/Ollama/LMStudio/MLX-LM/llama.cpp/KTransformers等主流推理框架
  • 通过Qwen-Agent增强智能体功能,简化工具调用模板和结果解析器
  • 最佳实践包括推荐采样参数设置、合理输出长度配置及标准化评测输出格式
  • 提供Qwen3技术报告的规范引用信息