ByteDance Releases MegaTTS3
a year ago
- #VoiceCloning
- #AI
- #TTS
- 仅0.45B参数的轻量化高效TTS扩散Transformer模型
- 支持中英双语超高质量语音克隆,包括语码转换功能
- 提供口音强度、细粒度发音调节等可控特征
- 项目于2025-03-22发布,含Linux/Windows/Docker详细配置说明
- 预训练模型可从Google Drive和Huggingface获取(出于安全考虑未包含WaveVAE编码器参数)
- 提供命令行和Web UI使用示例(标准TTS及带口音TTS)
- 包含语音-文本对齐、字形-音素转换、波形VAE等子模块
- 安全漏洞请通过字节跳动安全平台报告,项目采用Apache-2.0许可证
- 基于研究论文《稀疏对齐增强的潜在扩散Transformer》和《Wavtokenizer》