Hasty Briefsbeta

双语

Visual Reasoning Is Coming Soon

a year ago

#OpenAI
#AI
#Visual Reasoning

OpenAI的GPT-4o实现了大语言模型内真正的图像操控功能，可保持完整对话上下文以生成连贯图像。
当前大语言模型在图像处理上的局限包括图文交互能力薄弱，且无法直接修改现有图像。
视觉推理被强调为下一重大突破，该能力使模型能对空间场景和社交情境进行可视化分析与逻辑推演。
视觉推理模型的训练可能结合计算机图形学生成的合成数据与真实世界视频内容。
视觉推理的潜在应用涵盖从机器人技术到社交互动理解等领域，对未来人工智能发展具有深远影响。