Hasty Briefsbeta

双语

Ovi

6 months ago

#multimodal-ai
#audio-synthesis
#video-generation

Ovi是一款视频+音频生成模型，能够根据纯文本或文本+图像输入创建同步的多媒体内容。
其核心是采用内部数据集预训练的高质量50亿参数音频分支。
支持灵活输入模式：仅文本或文本+图像联合条件输入。
可生成5秒时长、24帧率、720×720分辨率的视频，并支持多种宽高比。
在文本生成视频(t2v)和图像生成视频(i2v)任务中支持最高960×960的高清分辨率。
已上线wavespeed.ai和HuggingFace平台供视频创作使用。
ComfyUI集成功能正在开发中(WIP)。
基础训练分辨率720×720，支持超分辨率扩展且保持内容一致性。
提供文本到音视频(T2AV)和图像到音视频(I2AV)的示例提示模板。
特殊标记(<S>和<AUDCAP>)可精准控制语音合成与音频描述内容。
通过git clone、虚拟环境和依赖安装即可快速部署。
可通过inference_fusion.yaml配置文件自定义生成参数，包括质量等级和GPU设置。
支持多GPU并行推理加速处理。
内置Gradio交互界面便于用户操作。
特别鸣谢Wan2.2和MMAudio提供的基础组件支持。
开放合作渠道，欢迎反馈与贡献。