Sora, la nuova sfida di OpenAI nella creazione di video

Un cane scatta selfie in una spiaggia tropicale, due navi pirata combattono dentro una tazza di caffè in tempesta o un gruppo di squali va in bicicletta. Non ci sono più limiti all’immaginazione: tutti diventano registi con Sora, il nuovo modello di intelligenza artificiale (IA) generativa text-to-video prodotto dalla società OpenAI. Nessun bisogno di andare in giro con treppiedi e cinepresa o smanettare per ore con sofisticati programmi di computer grafica: basterà scrivere un prompt – la richiesta dell’utente all’AI – di poche righe per creare filmati di altissima qualità.

I software per farlo esistono già, come Dall-E, della stessa OpenAI, ma Sora promette di alzare l’asticella, con un fotorealismo degno di Hollywood. La durata massima dei video è di un minuto, per garantire una clip coerente e aderente al prompt di partenza. Non si escludono, però, future estensioni: l’intero mercato audiovisuale e cinematografico rischia di entrare in crisi.

Il progetto di OpenAI è molto ambizioso e occorreranno mesi per valutare i rischi e le implicazioni etico-legali. La data di lancio ufficiale al pubblico non è ancora stata comunicata: il software è al momento disponibile solo per una ristretta nicchia di sviluppatori, che stanno mostrando in anteprima sui social ciò di cui è capace questo modello.

Le prime produzioni di Sora

Introducing Sora, our text-to-video model.

Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W

Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024

Con questa clip OpenAi ha lanciato Sora sui suoi profili X. Tokyo, esterno giorno. Il prompt non fornisce indicazioni specifiche sul meccanismo di ripresa: Sora decide di emulare il volo di un drone che segue una coppia di innamorati nella loro passeggiata su una via innevata del centro. Uno sguardo attento noterebbe vari problemi di proporzione: le dimensioni della carreggiata e delle bancarelle sono sbilanciate. Il glitch (malfunzionamento) più evidente, però, è la scomparsa dei veicoli sulla strada principale: per pochi istanti sono coperti dai fiori di ciliegio, nei frame successivi svaniscono nel nulla.

Tokyo Walk by OpenAI's Sora Text-to-Video pic.twitter.com/px6AVZdR7w
— Smoke-away (@SmokeAwayyy) February 28, 2024

Ancora Tokyo. Esterno notte. Il prompt è molto dettagliato con specifiche indicazioni sull’abbigliamento della ragazza e sull’illuminazione stradale: l’effetto è stupefacente. Le luci dei neon si riflettono in modo coerente sull’asfalto bagnato e sulle pozzanghere. Un po’ lenta e innaturale l’andatura della protagonista e dei passanti. I primi trenta secondi del filmato, tuttavia, sono abbastanza convincenti da farcelo sembrare un trailer cinematografico o uno spot pubblicitario girato a velocità 0.75x. Ci accorgiamo dell’inganno quando si passa a un primo piano nella parte finale del video: la ragazza presenta dei movimenti innaturali. Più volte si ferma e si guarda indietro, senza alcuna apparente ragione.

https://t.co/rmk9zI0oqO pic.twitter.com/WanFKOzdIw
— Sam Altman (@sama) February 15, 2024

C’è un po’ d’Italia tre le prime creazioni di Sora. All’interno di una «rustica cucina toscana», come chiesto nel prompt, una signora spiega come preparare degli gnocchi. L’ambientazione è l’elemento più impattante: viene rappresentata come ce la immaginiamo, con scaffali in legno e prodotti tipici. La «nonna social media influencer» in primo piano saluta, mentre si dedica al suo impasto. I movimenti sono realistici ma poco fluidi. Le mani si confermano il punto debole dell’IA: le dita sono sproporzionate e non tengono bene il manico del cucchiaio, che alla fine del video scompare per qualche frame e cade nella ciotola.

New Sora videos just dropped on TikTok by OpenAI team and people are going crazy.

Nothing in this video is real🤯

6 wild new examples: 🧵👇

1. Labrador Hacker pic.twitter.com/HBFgpH4kG4
— Min Choi (@minchoi) February 21, 2024

I filmati più realistici sono quelli che hanno un animale come soggetto. Non a caso sono i più utilizzati per testare e promuovere Sora. Nessuno direbbe mai che il “labrador hacker” della clip è un’invenzione del software. L’unica incoerenza grafica è la presenza di una luce lampeggiante fredda che ci aspetteremmo di vedere solo davanti al monitor acceso e non sul retro.

Personally, OpenAI's Sora, a prompt-to-video tool, excites me 🤯

I've touted 2024 as the AI year and we need more user-friendly tools like this 🤖

Check out the video below, made by Sora, it's (almost) flawless 🐈#OpenAI #SoraAI pic.twitter.com/v9NoSknxnX
— Olga Feldmeier (@OlgaFeldmeier) February 16, 2024

Anche i gatti sono protagonisti. La texture delle lenzuola in questo filmato è molto realistica: il gioco di luci e ombre rasenta la perfezione. A una prima visione non disturbano neanche i ghigni e le espressioni facciali innaturali della ragazza. Ci rendiamo conto che qualcosa non va solo quando il gatto poggia una quinta zampa inesistente sul volto della proprietaria. La moltiplicazione degli arti è un glitch abbastanza ricorrente nei video generati dall’IA: il “sistema” dimentica di averli già generati e ripete l’operazione. In altri filmati si vedono interi animali apparire dal nulla.

It's not even been 24 hours since Open AI announced Sora, and people are going absolutely bonkers.

Here are 5 crazy examples you don't want to miss:

1. Fluffy monster pic.twitter.com/2hIhuCiIju
— Kevin Sozanski (@kevinsozanski) February 16, 2024

I risultati di Sora con i cartoon sono incredibili. Nel video, un piccolo «mostro peloso» osserva la fiamma di una candela: c’è molta cura nelle sue reazioni, su cui si concentra gran parte del prompt. Le emozioni sono spontanee e realistiche. Solo pochi dettagli non convincono: oltre al fuoco che resta fermo in modo innaturale, il mostro non riesce a mantenere lo sguardo fisso sull’oggetto, finendo per guardare verso terra. Si ripresentano i problemi legati alle mani create con l’AI: il numero di dita della zampa sembra cambiare, passando da cinque a quattro e viceversa.

Marzo 2 2024
Sora, la nuova sfida di OpenAI nella creazione di video

Le prime produzioni di Sora

LEGGI ANCHE