Fins no fa gaire, parlar de vídeo generat per intel·ligència artificial semblava una promesa llunyana, pròpia de laboratoris de recerca o vídeos virals plens de glitches. Però el 2024 va marcat un punt d’inflexió. De cop i volta, noms com Veo, Sora o Kling van començar a ocupar espai real en converses creatives, en estudis de producció i en reunions de màrqueting. I no només com a curiositat, sinó com a possibles eines de treball reals. Què ha passat? Per què ara? Qué ens espera?
D’on venim
Durant anys, la generació de vídeo per IA ha anat a remolc de la imatge. Els primers intents com Ebsynth o First Order Motion Model podien animar una cara a partir d’una foto o transferir moviment entre vídeos. Era màgia en aquells temps… però molt limitada. Les escenes duraven segons, patien de consistència temporal, i qualsevol moviment lleugerament complex feia que tot es desmuntés i trenqués l’encant.
El gran salt va arribar quan els models generatius van començar a entendre no només com es veu un objecte en una imatge fixa, sinó com aquest objecte canvia al llarg del temps. Aquesta capacitat de mantenir coherència entre fotogrames ha estat clau per passar de GIFs estranys a clips que ja començen a semblar anuncis professionals.
Per què al final del 2024 i principis del 2025 ha canviat tot?
Hem viscut una allau d’anuncis i demostracions sorprenents:
-
Sora (OpenAI) va ensenyar clips hiperrealistes a partir de descripcions textuals, amb moviments de càmera fluïts i escenes coherents de més de 1 minut.
-
Kling (ByteDance) va respondre amb un model més accessible i ràpid, capaç de generar animacions estil TikTok o videoclips.
-
Veo (Google DeepMind) va combinar la qualitat cinematogràfica amb un control creatiu detallat: descripció, estil, moviment… i fins i tot prompts multimodals. I ara Veo3 ho està petant!
Això no és casualitat. L’escena ha explotat per tres motius concrets:
-
Els models multimodals han arribat a un punt de maduresa on poden entendre context textual, visual i fins i tot sonor de manera coordinada.
-
Els avenços en arquitectura de models com Video Transformer o 3D Diffusion han solucionat problemes clàssics com el flickering o la pèrdua de continuïtat entre fotogrames.
-
L’interès comercial és brutal: des de marques que volen automatitzar continguts fins a cineastes independents que veuen una nova forma de producció a cost reduït.
Una nova era de la producció visual?
Si mirem enrere, podríem comparar aquest moment amb els inicis de Canva per al disseny gràfic o Figma per al producte digital. En qüestió de mesos, una tecnologia que semblava exclusiva d’experts es transforma en una eina d’ampli abast.
Però amb el vídeo, el salt encara és més impactant: el cost de producció tradicional és molt alt, la logística complexa i el talent car. Ara, generar un vídeo curt amb actors, càmera en moviment, escenaris detallats i direcció artística ja no és només cosa de grans equips. És, literalment, un prompt treballadet.
Això canvia el joc: no només per a professionals, sinó també per a petites empreses, escoles, creadors de contingut o fins i tot per gent com tu i jo.
I ara què?
El 2024 ens ha ensenyat que el vídeo generat per IA ha deixat de ser una promesa. El 2025 és l’any on comencem a veure’l integrat en entorns de producció reals. Amb això no vull dir que substitueixi els equips humans, sinó que probablement s’hi afegeixi com una eina més: ràpida, flexible i sorprenentment capaç.
Però també caldrà parar atenció: a les implicacions ètiques, al risc de desinformació, a l’autoria i als drets d’imatge. Però això, és el tema recurrent i general de la IA.
En el proper article, parlaré de la novetat del moment Veo3 com a porta d’entrada al vídeo generat per IA.