Hasty Briefsbeta

双语

LLMs can see and hear without any training

a year ago

#LLM
#captioning
#multimodal

论文《LLMs无需训练即可看与听》的官方实现代码
使用`conda env create -f environment.yml`创建conda环境并通过`conda activate MILS`激活
下载数据集：MS-COCO、Clotho和MSR-VTT，同时下载标注文件与模型检查点
修改`paths.py`中的变量以设置数据集目录和输出文件夹路径
MILS是纯推理方法，可在单块A100 GPU上运行（实验使用八块A100 GPU完成）
使用提供的脚本生成图像/音频/视频描述，并通过对应评估脚本进行验证
运行`main_image_generation_enhancement.py`生成高质量图像
将风格图与内容图放入`images/`文件夹后，执行`main_style_transfer.py`进行风格迁移
结合图像与音频的描述文本生成图像生成提示词
本工具采用CC-by-NC 4.0许可证，第三方内容遵循其原始许可协议
请使用提供的BibTeX条目引用本工作