A Step Towards Music Generation Foundation Model

a year ago

ACE-Step是一个开源的音乐生成基础模型，它结合了基于扩散的生成技术、深度卷积自编码器（DCAE）以及轻量级线性Transformer架构
该模型实现了最先进的性能表现，在A100 GPU上仅需20秒即可合成长达4分钟的音乐，相比基于LLM的基线模型提速15倍
支持19种语言输入及多样音乐风格，具备语音克隆、歌词编辑、音轨生成等高级控制功能
模型创新性地集成了变奏生成(Variations Generation)、流式编辑(Flow-Edit)、歌词转唱(Lyric2Vocal)、音轨分离生成(StemGen)等特色功能，支持局部修改与创意增强
性能基准测试显示其在多种GPU上均具有高吞吐量，项目文档提供了详细的安装指南与训练说明
采用Apache 2.0开源协议，特别强调负责任使用原则，鼓励原创性创作并倡导文化敏感性

Hasty Briefsbeta