Updated Gemini 2.5 Flash Native Audio Model

5 months ago

谷歌推出了升级版Gemini 2.5 Flash原生音频模型，专为实时语音代理设计，显著提升了复杂工作流处理能力和自然对话体验。
该模型现已全面登陆谷歌产品矩阵，包括Google AI Studio、Vertex AI、Gemini Live及Search Live等平台。
核心升级包含：精准函数调用（ComplexFuncBench Audio测试达71.5分）、强健指令跟随（遵循率90%）、以及更流畅的多轮对话交互。
新增实时语音翻译功能，支持70余种语言和2000种语言组合，具备风格转换、多语言混合输入、自动检测及抗噪等特性。
实时语音翻译Beta版率先在安卓版Google Translate应用登陆美国、墨西哥和印度市场，iOS版本及其他地区即将推出。
Shopify、United Wholesale Mortgage和Newo.ai等企业用户反馈，Gemini 2.5 Flash原生音频模型带来显著效益提升。
开发者现可通过Vertex AI和Gemini API，基于Gemini 2.5 Flash原生音频模型构建语音代理应用。

Hasty Briefsbeta