Hasty Briefsbeta

双语

ByteDance Releases MegaTTS3

a year ago

#VoiceCloning
#AI
#TTS

仅0.45B参数的轻量化高效TTS扩散Transformer模型
支持中英双语超高质量语音克隆，包括语码转换功能
提供口音强度、细粒度发音调节等可控特征
项目于2025-03-22发布，含Linux/Windows/Docker详细配置说明
预训练模型可从Google Drive和Huggingface获取（出于安全考虑未包含WaveVAE编码器参数）
提供命令行和Web UI使用示例（标准TTS及带口音TTS）
包含语音-文本对齐、字形-音素转换、波形VAE等子模块
安全漏洞请通过字节跳动安全平台报告，项目采用Apache-2.0许可证
基于研究论文《稀疏对齐增强的潜在扩散Transformer》和《Wavtokenizer》