OpenAI verbaast met nieuwe videogenerator Sora: ‘We moeten straks klanten uitleggen dat animatievideo’s niet in 2 minuten worden gemaakt’
OpenAI, het bedrijf achter ChatGPT, heeft een nieuwe tool voorgesteld die via eenvoudige tekstinstructies video’s genereert. De tool kreeg de naam ‘Sora’ en maakt filmpjes tot een minuut in hoge resolutie. AI-onderzoeker Thomas Winters legt uit hoe het werkt en de Antwerpse animatiestudio Sabouge bespreekt hoe de technologie kan worden ingezet in de praktijk.
OpenAI werkte tot voor kort alleen intern met Sora, maar het geeft de tool nu ook in handen van externe testers. We krijgen ook al tal van voorbeeldvideo’s te zien in een waaier van verschillende genres. Sommige zien er fotorealistisch uit, terwijl andere animatievideo’s zijn. Sora is niet de eerste in zijn soort, maar het slaagt er wel als eerste in om video’s zonder ruis en in hoge resolutie te genereren. Beelden zijn dus rijk aan details. De tool wordt nu verder ontwikkeld en het is nog niet bekend wanneer OpenAI de beschikbaar stelt voor een breder publiek.
Experts zijn het er over eens dat de video’s een stap voorwaarts zijn in vergelijking met technologie die eerder beschikbaar was. Beelden die eerder van tekst zijn gegenereerd waren korter, van lagere kwaliteit en bevatten ruis. Daarnaast waren er vaak problemen met de continuïteit. Als bijvoorbeeld in een video een vrachtwagen door de straat reed, dan zagen de huizen langs de straat er anders uit op het moment dat de vrachtwagen uit beeld verdwijnt. Dat zijn problemen die OpenAI heeft aangepakt met Sora.
Hieronder is een compilatie van de verschillende voorbeeldvideo’s die OpenAI heeft gedeeld.
Zorgvuldig gekozen
Toch zijn er nog altijd kleine visuele fouten zichtbaar. In een video van een straatbeeld valt op dat auto’s in verhouding te klein zijn ten opzichte van voetgangers. Het wijst erop dat OpenAI selectief is geweest met de demobeelden die het heeft geselecteerd om aan het grote publiek te tonen.
Dat is duidelijk aan de hand van de tweets die OpenAI-CEO Sam Altman deelde op X (het vroegere Twitter). Altman riep zijn volgers op om ideeën voor video’s te bedenken, die hij door Sora in beelden zou omzetten. Een voorbeeld daarvan is een video van een draak met een eendenkop, die rondvliegt met een hamster op zijn rug gekleed in avontuurlijke kleding. In de video die Altman snel heeft gegenereerd, valt op dat de hamster slechts één buitensporig groot been heeft.
Altman deelt vervolgens een tweede video met het opschrift “Hier is een betere”. Alleen zien we daar dat het bijzondere duo achteruitvliegt en dat de hamster vreemd gevormde handen heeft. Vreemde handen zijn een vaker voorkomend probleem bij AI-gegenereerde beelden.
Zo werkt Sora
“Het is belangrijk om voor ogen te houden dat de video’s die we nu zien, dienen als een beginpunt. Vanaf nu wordt het model alleen nog maar verbeterd. En de kwaliteit is nu al duidelijk beter vergeleken met andere videogenerators”, merkt Thomas Winters op. Hij is AI-onderzoeker aan de KU-Leuven. “Als je bijvoorbeeld merkt dat handen er slecht uitzien, dan doet dat meteen denken aan gegenereerde afbeeldingen van DALL-E (de beeldengenerator van OpenAI), die dezelfde problemen bevatten. Alleen zien we het bij DALL-E 3, de laatste versie, al veel minder dan voordien.”
Winters legt uit dat Sora werkt volgens twee bekende technieken, namelijk diffusion en transformer. Diffusion is bekend van DALL-E en het zorgt ervoor dat een ruisafbeelding omgevormd kan worden tot een afbeelding volgens een beschreven tekst. Een tranformer is een systeem onderliggend aan ChatGPT. Waar ChatGPT zinnen samenstelt uit woorden, vormt Sora een videobeeld uit verschillende losse stukken beeld die samen worden gevoegd.
Een belangrijk voordeel is dat dit model goed getraind kan worden met verschillende vormen van beeldmateriaal, waardoor het snel stappen voorwaarts zet.
Vervangt dit de animatiestudio?
De vraag is wat we in de toekomst van Sora mogen verwachten. Zal de generator straks het werk van animators overnemen? Jolien Arits, head of studio van de animatiestudio Sabouge, denkt van niet. “We willen zeker niet het signaal geven dat we tegen AI-tools zijn, vermits we ook al gebruik maken van ChatGPT om ideeën te verzamelen. Alleen vinden we het belangrijk dat we onze creatieve laag kunnen leggen en dat op maat van de klant. Dit soort van tools maakt altijd gebruik van bestaand werk om beelden te generen en dat beperkt de creatieve vrijheid. Daarom verwachten we niet dat dit ons werk zal vervangen, eerder ondersteunen.”
“Een bezorgdheid is de mate waarin de video’s goed te bewerken zijn”, gaat ze verder. “Een probleem dat we ervaren met de beeldgenerator DALL-E van OpenAI, is dat je de beelden achteraf niet makkelijk kan bewerken, omdat het gewoon jpg’s zijn. Je kan dus niet aan lagen werken om details aan te passen, zoals dat wel kan in tools als Adobe Photoshop of Illustrator.”
Thomas Winters merkt op dat, ondanks de komst van DALL-E, illustators nog altijd gebruikt worden, omdat AI nog niet het gewenste niveau bereikt. Hij volgt dan ook de redenering van Arits. “Ik denk dat dit voor de kleinere contentmakers zoals TikTok-gebruikers een grote meerwaarde bied. Het is logisch dat professionals eerder op zoek gaan naar oplossingen die aanpasbaar zijn in hun videosoftware. Al is het vooral een kwestie van tijd voor we meer professionele toepassingen zullen zien. Adobe werkt nu ook al met beeldgeneratie in Photoshop.”
Daarom is het niet ondenkbaar dat bedrijven zoals animatiestudio’s op termijn zullen besparen op het aantal animators die ze in dienst nemen, vermits die tools de workflow van studio’s kunnen versnellen.
Toepassingen voor animators
Arits van Sabouge herkent toepassingen waarvoor Sora vandaag gebruikt zou kunnen worden in animatiestudio’s. “Dit lijkt ons een handig middel om concepten te maken en onderdelen voor onze moodboards. Voor we echt gaan animeren, maken we zo’n concepten om bijvoorbeeld een idee te pitchen aan klanten. Stel dat we bijvoorbeeld een animatie willen maken van een paard dat hinkelt op één been, dan gaan we nooit een voorbeeldvideo online vinden die we kunnen tonen. En het kost enorm veel tijd om zelf iets te maken.”
‘Ondertussen zijn er sinds de oorlog in Oekraïne al tal van nepvideo’s van de Oekraïnse president Zelensky gemaakt, maar die hebben geen grote impact, juist omdat ze goed worden herkend’
Thomas Winters, AI-onderzoeker, KU Leuven
“We lezen daarnaast dat Sora niet alleen werkt met tekstinstructies, maar dat ook een video kan maken op basis van een beginbeeld. Nu stoppen we heel veel tijd in onze stop-motionvideo’s. Ofwel video’s die tot stand komen doordat we meerdere losse foto’s achter elkaar zetten zodat je beweging krijgt. Het zou erg interessant zijn als een AI-tool zo’n stop-motionvideo’s zou kunnen maken op basis van één foto die we hebben gemaakt. Dat zou ons opnieuw veel tijd besparen.”
Misleiding en weinig transparantie
Kunnen gegenereerde video’s misleidend werken, zodat mensen straks de realiteit niet meer kunnen onderscheiden van gegenereerde content? Thomas Winters wil dat nuanceren. “Met deepfakes en gewone beeldgenerators werden gelijkaardige bezorgdheden geuit en ik denk dat vooral belangrijk is dat we hierover blijven spreken, want zo creëren we bewustzijn. Ondertussen zijn er sinds de oorlog in Oekraïne al tal van nepvideo’s van de Oekraïense president Zelensky gemaakt, maar die hebben geen grote impact, juist omdat ze goed worden herkend. Maar opnieuw: mensen bewust maken, blijft belangrijk.”
Winters merkt wel op dat OpenAI weinig transparant is over technische werking van Sora. “De architectuur of bepaalde parameters worden geheim gehouden, maar dat is nu de manier van werken geworden van OpenAI. Dat is ironisch, want het hele uitgangspunt was nochtans om AI open-source te ontwikkelen. Ergens is die commerciële aanpak wel begrijpelijk als je weet hoeveel geld het kost om de modellen te trainen.”
‘Als wij nu aan klanten vertellen dat iets een paar dagen werk zal kosten om te ontwerpen, dan schrikken ze al. Wanneer ze zelf een prompt invoeren in Dall-E krijgen ze immers al resultaat in twee minuten’
Jolien Arits, head of studio, Sabouge
Ook Jolien Arits van Sabouge herkent op haar werk al negatieve gevolgen sinds de groeiende populariteit van beeldgenerators. “Mensen krijgen totaal verkeerde verwachtingen doordat ze bekend zijn met AI-tools zoals DALL-E. Als wij nu aan klanten vertellen dat iets een paar dagen werk zal kosten om te ontwerpen, dan schrikken ze al. Wanneer ze zelf een prompt invoeren in DALL-E krijgen ze immers al resultaat in twee minuten. Dat probleem zal er ook zijn met videogenerators.”
Wanneer is Sora beschikbaar?
Thomas Winters verwacht dat OpenAI de technologie op vrij korte termijn zal beschikbaar stellen aan gebruikers. “Op dit moment kan een kleine groep ermee werken, maar dat kan vrij snel worden uitgebreid zoals dat met DALL-E is gegaan.” OpenAI biedt ChatGPT en DALL-E gratis aan, maar er zijn ook betaalde varianten. Vermoedelijk zal het gebruik van Sora gelimiteerd worden voor gratis gebruikers. OpenAI kan bijvoorbeeld beperken hoeveel video’s gebruikers na elkaar kunnen maken. Wie de tool vaker gebruikt, kan zich abonneren op ChatGPT Plus.
Lees ook:
AI in een stroomversnelling: wat brengt de toekomst?
Fout opgemerkt of meer nieuws? Meld het hier