Un cane scatta selfie in una spiaggia tropicale, due navi pirata combattono dentro una tazza di caffè in tempesta o un gruppo di squali va in bicicletta. Non ci sono più limiti all’immaginazione: tutti diventano registi con Sora, il nuovo modello di intelligenza artificiale (IA) generativa text-to-video prodotto dalla società OpenAI. Nessun bisogno di andare in giro con treppiedi e cinepresa o smanettare per ore con sofisticati programmi di computer grafica: basterà scrivere un prompt – la richiesta dell’utente all’AI – di poche righe per creare filmati di altissima qualità.
I software per farlo esistono già, come Dall-E, della stessa OpenAI, ma Sora promette di alzare l’asticella, con un fotorealismo degno di Hollywood. La durata massima dei video è di un minuto, per garantire una clip coerente e aderente al prompt di partenza. Non si escludono, però, future estensioni: l’intero mercato audiovisuale e cinematografico rischia di entrare in crisi.
Il progetto di OpenAI è molto ambizioso e occorreranno mesi per valutare i rischi e le implicazioni etico-legali. La data di lancio ufficiale al pubblico non è ancora stata comunicata: il software è al momento disponibile solo per una ristretta nicchia di sviluppatori, che stanno mostrando in anteprima sui social ciò di cui è capace questo modello.
Le prime produzioni di Sora
Con questa clip OpenAi ha lanciato Sora sui suoi profili X. Tokyo, esterno giorno. Il prompt non fornisce indicazioni specifiche sul meccanismo di ripresa: Sora decide di emulare il volo di un drone che segue una coppia di innamorati nella loro passeggiata su una via innevata del centro. Uno sguardo attento noterebbe vari problemi di proporzione: le dimensioni della carreggiata e delle bancarelle sono sbilanciate. Il glitch (malfunzionamento) più evidente, però, è la scomparsa dei veicoli sulla strada principale: per pochi istanti sono coperti dai fiori di ciliegio, nei frame successivi svaniscono nel nulla.
Ancora Tokyo. Esterno notte. Il prompt è molto dettagliato con specifiche indicazioni sull’abbigliamento della ragazza e sull’illuminazione stradale: l’effetto è stupefacente. Le luci dei neon si riflettono in modo coerente sull’asfalto bagnato e sulle pozzanghere. Un po’ lenta e innaturale l’andatura della protagonista e dei passanti. I primi trenta secondi del filmato, tuttavia, sono abbastanza convincenti da farcelo sembrare un trailer cinematografico o uno spot pubblicitario girato a velocità 0.75x. Ci accorgiamo dell’inganno quando si passa a un primo piano nella parte finale del video: la ragazza presenta dei movimenti innaturali. Più volte si ferma e si guarda indietro, senza alcuna apparente ragione.
C’è un po’ d’Italia tre le prime creazioni di Sora. All’interno di una «rustica cucina toscana», come chiesto nel prompt, una signora spiega come preparare degli gnocchi. L’ambientazione è l’elemento più impattante: viene rappresentata come ce la immaginiamo, con scaffali in legno e prodotti tipici. La «nonna social media influencer» in primo piano saluta, mentre si dedica al suo impasto. I movimenti sono realistici ma poco fluidi. Le mani si confermano il punto debole dell’IA: le dita sono sproporzionate e non tengono bene il manico del cucchiaio, che alla fine del video scompare per qualche frame e cade nella ciotola.
I filmati più realistici sono quelli che hanno un animale come soggetto. Non a caso sono i più utilizzati per testare e promuovere Sora. Nessuno direbbe mai che il “labrador hacker” della clip è un’invenzione del software. L’unica incoerenza grafica è la presenza di una luce lampeggiante fredda che ci aspetteremmo di vedere solo davanti al monitor acceso e non sul retro.
Anche i gatti sono protagonisti. La texture delle lenzuola in questo filmato è molto realistica: il gioco di luci e ombre rasenta la perfezione. A una prima visione non disturbano neanche i ghigni e le espressioni facciali innaturali della ragazza. Ci rendiamo conto che qualcosa non va solo quando il gatto poggia una quinta zampa inesistente sul volto della proprietaria. La moltiplicazione degli arti è un glitch abbastanza ricorrente nei video generati dall’IA: il “sistema” dimentica di averli già generati e ripete l’operazione. In altri filmati si vedono interi animali apparire dal nulla.
I risultati di Sora con i cartoon sono incredibili. Nel video, un piccolo «mostro peloso» osserva la fiamma di una candela: c’è molta cura nelle sue reazioni, su cui si concentra gran parte del prompt. Le emozioni sono spontanee e realistiche. Solo pochi dettagli non convincono: oltre al fuoco che resta fermo in modo innaturale, il mostro non riesce a mantenere lo sguardo fisso sull’oggetto, finendo per guardare verso terra. Si ripresentano i problemi legati alle mani create con l’AI: il numero di dita della zampa sembra cambiare, passando da cinque a quattro e viceversa.