GitHub - OpenBMB/VoxCPM: VoxCPM2: Tokenizer-Free TTS for Multilingual Speech Generation, Creative Voice Design, and True-to-Life Cloning
2 days ago
- #Voice Cloning
- #Text-to-Speech
- #Multilingual AI
- VoxCPM2是一个拥有20亿参数的无分词文本转语音系统,基于超过200万小时的多语言语音数据训练而成。
- 它支持30种语言,具备语音设计、可控语音克隆功能,并通过端到端扩散自回归架构输出48kHz录音室品质音频。
- 特性包括低实时率因子的实时流式处理、完全开源的Apache-2.0许可,以及类似SFT和LoRA的微调选项。
- 性能基准测试显示,在多语言文本转语音任务中实现了最先进的结果,跨语言具有高可懂度和相似度评分。
- 风险包括可能被滥用于身份冒充、可控生成存在可变性,以及对未支持语言覆盖范围有限。