Hasty Briefsbeta

双语

LLMs can see and hear without any training

a year ago
  • #LLM
  • #captioning
  • #multimodal
  • 论文《LLMs无需训练即可看与听》的官方实现代码
  • 使用`conda env create -f environment.yml`创建conda环境并通过`conda activate MILS`激活
  • 下载数据集:MS-COCO、Clotho和MSR-VTT,同时下载标注文件与模型检查点
  • 修改`paths.py`中的变量以设置数据集目录和输出文件夹路径
  • MILS是纯推理方法,可在单块A100 GPU上运行(实验使用八块A100 GPU完成)
  • 使用提供的脚本生成图像/音频/视频描述,并通过对应评估脚本进行验证
  • 运行`main_image_generation_enhancement.py`生成高质量图像
  • 将风格图与内容图放入`images/`文件夹后,执行`main_style_transfer.py`进行风格迁移
  • 结合图像与音频的描述文本生成图像生成提示词
  • 本工具采用CC-by-NC 4.0许可证,第三方内容遵循其原始许可协议
  • 请使用提供的BibTeX条目引用本工作