High-Fidelity Simultaneous Speech-to-Speech Translation
10 months ago
- #natural language processing
- #machine learning
- #speech translation
- Hibiki是一个专为同步语音翻译设计的纯解码器模型
- 该模型采用多流语言模型同步处理源语音和目标语音
- 可联合生成文本和音频token,实现语音到文本及语音到语音的翻译
- 通过弱监督方法利用现成文本翻译系统的困惑度来确定最佳延迟
- Hibiki采用原始温度采样实现自适应同步语音翻译
- 在翻译质量、说话人音色保真度和自然度方面达到最先进水平
- 该模型支持批量翻译并兼容实时端侧部署