Hasty Briefsbeta

双语

Pico-Banana-400k

4 months ago
  • #image-editing
  • #dataset
  • #multimodal
  • Pico-Banana-400K是一个包含约40万组文本-图像-编辑三元组的大规模数据集,用于文本引导的图像编辑研究。
  • 每个样本包含来自Open Images的原始图像、类人编辑指令,以及经Nano-Banana验证的编辑结果。
  • 数据集涵盖8大语义类别下的35种编辑操作,呈现多样化图像变换。
  • 特征包括:约25.7万单轮三元组(用于SFT)、5.6万偏好学习样本、7.2万组多轮对话数据。
  • 编辑类别包含:对象级、场景构图、以人为中心、风格化、文本与符号、像素与光度、尺度与透视、空间/布局调整。
  • 数据集采用两阶段流程构建:通过Gemini-2.5-Flash生成指令,通过Nano-Banana进行编辑与自评估。
  • 通过指令合规性、编辑真实度等自动化指标实现质量管控。
  • Pico-Banana-400K托管于苹果公共CDN,遵循CC BY-NC-ND 4.0许可(非商用)。
  • 源图像采用Open Images(CC BY 2.0)许可,并提供清单文件指导组件下载。
  • 文末附引用规范供学术使用。