Llasa: Llama-Based Speech Synthesis
a year ago
- #scaling
- #LLMs
- #speech-synthesis
- 探讨语音合成中训练时计算量与推理时计算量的扩展规律
- 提出LLaSA框架:采用单层VQ编解码器与类LLaMA的Transformer架构对齐大语言模型
- 证明增加训练计算量可提升语音自然度与韵律模式
- 通过验证器证实扩展推理计算量能增强情感表现力、音色一致性及内容准确性
- 公开释放TTS模型(1B/3B/8B参数)与编解码模型的检查点及训练代码
- 使用Ravdess等基准测试对比不同评估指标下的推理扩展效果
- 在不同模型规模与训练数据量下评估文本理解与合成质量表现