Ovi
4 months ago
- #multimodal-ai
- #audio-synthesis
- #video-generation
- Ovi是一款视频+音频生成模型,能够根据纯文本或文本+图像输入创建同步的多媒体内容。
- 其核心是采用内部数据集预训练的高质量50亿参数音频分支。
- 支持灵活输入模式:仅文本或文本+图像联合条件输入。
- 可生成5秒时长、24帧率、720×720分辨率的视频,并支持多种宽高比。
- 在文本生成视频(t2v)和图像生成视频(i2v)任务中支持最高960×960的高清分辨率。
- 已上线wavespeed.ai和HuggingFace平台供视频创作使用。
- ComfyUI集成功能正在开发中(WIP)。
- 基础训练分辨率720×720,支持超分辨率扩展且保持内容一致性。
- 提供文本到音视频(T2AV)和图像到音视频(I2AV)的示例提示模板。
- 特殊标记(<S>和<AUDCAP>)可精准控制语音合成与音频描述内容。
- 通过git clone、虚拟环境和依赖安装即可快速部署。
- 可通过inference_fusion.yaml配置文件自定义生成参数,包括质量等级和GPU设置。
- 支持多GPU并行推理加速处理。
- 内置Gradio交互界面便于用户操作。
- 特别鸣谢Wan2.2和MMAudio提供的基础组件支持。
- 开放合作渠道,欢迎反馈与贡献。