Hasty Briefsbeta

双语

Llasa: Llama-Based Speech Synthesis

a year ago

#scaling
#LLMs
#speech-synthesis

探讨语音合成中训练时计算量与推理时计算量的扩展规律
提出LLaSA框架：采用单层VQ编解码器与类LLaMA的Transformer架构对齐大语言模型
证明增加训练计算量可提升语音自然度与韵律模式
通过验证器证实扩展推理计算量能增强情感表现力、音色一致性及内容准确性
公开释放TTS模型(1B/3B/8B参数)与编解码模型的检查点及训练代码
使用Ravdess等基准测试对比不同评估指标下的推理扩展效果
在不同模型规模与训练数据量下评估文本理解与合成质量表现