Hasty Briefsbeta

双语

Llasa: Llama-Based Speech Synthesis

a year ago
  • #scaling
  • #LLMs
  • #speech-synthesis
  • 探讨语音合成中训练时计算量与推理时计算量的扩展规律
  • 提出LLaSA框架:采用单层VQ编解码器与类LLaMA的Transformer架构对齐大语言模型
  • 证明增加训练计算量可提升语音自然度与韵律模式
  • 通过验证器证实扩展推理计算量能增强情感表现力、音色一致性及内容准确性
  • 公开释放TTS模型(1B/3B/8B参数)与编解码模型的检查点及训练代码
  • 使用Ravdess等基准测试对比不同评估指标下的推理扩展效果
  • 在不同模型规模与训练数据量下评估文本理解与合成质量表现