Hasty Briefsbeta

双语

Ovi

4 months ago
  • #multimodal-ai
  • #audio-synthesis
  • #video-generation
  • Ovi是一款视频+音频生成模型,能够根据纯文本或文本+图像输入创建同步的多媒体内容。
  • 其核心是采用内部数据集预训练的高质量50亿参数音频分支。
  • 支持灵活输入模式:仅文本或文本+图像联合条件输入。
  • 可生成5秒时长、24帧率、720×720分辨率的视频,并支持多种宽高比。
  • 在文本生成视频(t2v)和图像生成视频(i2v)任务中支持最高960×960的高清分辨率。
  • 已上线wavespeed.ai和HuggingFace平台供视频创作使用。
  • ComfyUI集成功能正在开发中(WIP)。
  • 基础训练分辨率720×720,支持超分辨率扩展且保持内容一致性。
  • 提供文本到音视频(T2AV)和图像到音视频(I2AV)的示例提示模板。
  • 特殊标记(<S>和<AUDCAP>)可精准控制语音合成与音频描述内容。
  • 通过git clone、虚拟环境和依赖安装即可快速部署。
  • 可通过inference_fusion.yaml配置文件自定义生成参数,包括质量等级和GPU设置。
  • 支持多GPU并行推理加速处理。
  • 内置Gradio交互界面便于用户操作。
  • 特别鸣谢Wan2.2和MMAudio提供的基础组件支持。
  • 开放合作渠道,欢迎反馈与贡献。