Hasty Briefsbeta

双语

High-Fidelity Simultaneous Speech-to-Speech Translation

10 months ago

#natural language processing
#machine learning
#speech translation

Hibiki是一个专为同步语音翻译设计的纯解码器模型
该模型采用多流语言模型同步处理源语音和目标语音
可联合生成文本和音频token，实现语音到文本及语音到语音的翻译
通过弱监督方法利用现成文本翻译系统的困惑度来确定最佳延迟
Hibiki采用原始温度采样实现自适应同步语音翻译
在翻译质量、说话人音色保真度和自然度方面达到最先进水平
该模型支持批量翻译并兼容实时端侧部署