Video models are zero-shot learners and reasoners

7 months ago

Veo 3 demonstrates emergent zero-shot abilities across diverse visual tasks.
Video models may evolve into vision foundation models, similar to LLMs in language.
Veo 3 can zero-shot solve tasks like object segmentation, edge detection, and image editing.
The model shows capabilities in perception, modeling, manipulation, and early visual reasoning.
Tasks include understanding physical properties, recognizing affordances, and simulating tool use.
Veo 3's abilities suggest a path toward unified, generalist vision foundation models.

Hasty Briefsbeta