Alibaba Qwen2.5-Omni-7B: Open Source End-to-End Multimodal AI Model
a year ago
- #Open-Source
- #AI
- #Multimodal
- 阿里云推出Qwen2.5-Omni-7B多模态模型,可处理文本、图像、音频和视频
- 该模型针对手机、笔记本等边缘设备优化,能提供实时响应
- 虽仅70亿参数紧凑设计,仍具备高性能与强大多模态能力
- 潜在应用包括视障用户辅助、烹饪指导、智能客服等场景
- 模型已在Hugging Face、GitHub、通义千问平台和ModelScope开源
- 创新架构包含Thinker-Talker机制、TMRoPE位置编码和分块流式处理技术
- 基于多样化数据集预训练,在语音指令任务和多模态融合方面表现突出
- 在OmniBench等跨模态推理基准测试中达到最先进水平
- 通过强化学习优化显著提升语音生成稳定性并降低错误率
- 阿里云此前已发布Qwen2.5-Max、Qwen2.5-VL和Qwen2.5-1M等系列AI模型