Hasty Briefsbeta

双语

ByteDance Releases MegaTTS3

a year ago
  • #VoiceCloning
  • #AI
  • #TTS
  • 仅0.45B参数的轻量化高效TTS扩散Transformer模型
  • 支持中英双语超高质量语音克隆,包括语码转换功能
  • 提供口音强度、细粒度发音调节等可控特征
  • 项目于2025-03-22发布,含Linux/Windows/Docker详细配置说明
  • 预训练模型可从Google Drive和Huggingface获取(出于安全考虑未包含WaveVAE编码器参数)
  • 提供命令行和Web UI使用示例(标准TTS及带口音TTS)
  • 包含语音-文本对齐、字形-音素转换、波形VAE等子模块
  • 安全漏洞请通过字节跳动安全平台报告,项目采用Apache-2.0许可证
  • 基于研究论文《稀疏对齐增强的潜在扩散Transformer》和《Wavtokenizer》