LLMs can see and hear without any training
a year ago
- #LLM
- #captioning
- #multimodal
- 论文《LLMs无需训练即可看与听》的官方实现代码
- 使用`conda env create -f environment.yml`创建conda环境并通过`conda activate MILS`激活
- 下载数据集:MS-COCO、Clotho和MSR-VTT,同时下载标注文件与模型检查点
- 修改`paths.py`中的变量以设置数据集目录和输出文件夹路径
- MILS是纯推理方法,可在单块A100 GPU上运行(实验使用八块A100 GPU完成)
- 使用提供的脚本生成图像/音频/视频描述,并通过对应评估脚本进行验证
- 运行`main_image_generation_enhancement.py`生成高质量图像
- 将风格图与内容图放入`images/`文件夹后,执行`main_style_transfer.py`进行风格迁移
- 结合图像与音频的描述文本生成图像生成提示词
- 本工具采用CC-by-NC 4.0许可证,第三方内容遵循其原始许可协议
- 请使用提供的BibTeX条目引用本工作