Nella corsa all’IA, i modelli audiovisivi cinesi sono davanti

Di il 29 Maggio, 2026
Kling, Seedance e Hailuo battono i rivali americani. E in Cina l'industria dell'intrattenimento ha iniziato a riorganizzarsi intorno all'IA
Fonte immagine di copertina: Shutterstock

Sui social network è sempre più frequente imbattersi in video generati dall’IA, spesso etichettati con il termine ‘slop’, ‘spazzatura’, motivato da caratteristiche precise: bassa qualità, audio che non è sincronizzato alle immagini e un’origine artificiale facilmente riconoscibile.

Allo stesso tempo, gli strumenti di generazione video, nonostante siano spesso trascurati nel dibattito sull’avanzamento dei modelli di IA, stanno facendo notevoli passi avanti.

Di recente, il Wall Street Journal ha rivelato che in diverse sequenze della serie Amazon House of David lo sfondo è stato completamente generato dall’IA. Riguardando le scene in cui questi sfondi artificiali fanno da protagonisti, uno spettatore avendo questa informazione potrebbe rimanere stupito. La qualità, infatti, è di gran lunga maggiore rispetto ai video ‘slop’ in cui ci si imbatte sui social media.

La spiegazione si trova nello strumento utilizzato per gli sfondi di House of David, generati tramite Kling AI, un mezzo di generazione video da input testuali, sviluppato dall’azienda cinese Kuaishou, in patria il più grande competitor di ByteDance.

Un divario sempre maggiore

Mentre i modelli di generazione testuale e di coding di aziende americane come Anthropic e OpenAI ottengono risultati superiori rispetto ai rivali cinesi, il Financial Times riporta che nella generazione di video e immagini la situazione è ribaltata.

Il dato è centrale nel dibattito sulla gara tra Cina e USA nella conquista dell’IA, perché la generazione di video e immagini sta diventando un fattore competitivo chiave in settori come la pubblicità, l’e-commerce, e l’intrattenimento.

La qualità audio-visiva ottenibile con modelli come Kling di Kuaishou, Seedance 2.0, sviluppato da ByteDance, e Hailuo, di proprietà di MiniMax, è di gran lunga superiore a quella degli strumenti americani.

Questa valutazione si basa principalmente su quattro indicatori: la qualità dell’immagine, la sincronizzazione dell’audio, la coerenza con il prompt testuale, e la facilità di utilizzo dello strumento.

Sono due i fattori che determinano questo distacco.

Il primo riguarda l’addestramento di questi sistemi, per cui serve una libreria di video molto ampia. In questo le aziende cinesi hanno un vantaggio competitivo, forti della loro proprietà di piattaforme come TikTok e Douyin.

Questo viene dimostrato anche dal fatto che il modello americano più efficiente nella generazione audiovisiva è Veo 3 di Google, avvantaggiato dall’accesso ai video di YouTube, ma penalizzato rispetto ai rivali a causa di maggiori limitazioni sull’utilizzo dei contenuti per l’addestramento.

Il secondo è che le aziende cinesi si stanno rilevando molto più aggressive rispetto ai rivali americani nell’uso di materiale coperto da diritto d’autore, conseguenza di minori controlli da parte degli enti regolamentativi.

Tuttavia, come era già successo lo scorso giugno quando si è verificato uno scontro tra gli studi cinematografici e le compagnie di IA americane, anche le aziende cinesi stanno ricevendo pressioni sempre maggiori per aumentare il rispetto dei diritti di autore.

Emblematico è il caso di ByteDance, che dopo aver permesso l’utilizzo di contenuti protetti, tra cui personaggi della Marvel e della serie televisiva South Park, ha subito pesanti critiche da parte dell’industria dell’intrattenimento e, come riportato dal Guardian, ha annunciato controlli più stringenti sul diritto di autore.

Rispetto alla generazione testuale e di codici, la creazione di prodotti audio-visivi tramite IA è anche più onerosa. Infatti, richiede molti più token, aumentando i costi e la capacità computazionale necessaria.

Il precedente Sora

Le compagnie cinesi non sono state le prime a puntare sulla commercializzazione della generazione di video tramite IA. A settembre 2025, infatti, OpenAI ha lanciato un’intera app basata su Sora 2.

Costruita sul formato TikTok, video brevi e verticali, la piattaforma prevedeva che tutti i video fossero interamente generati con IA dagli utenti, in un ecosistema chiuso, dove era impossibile importare video dal rullino.

Per ampliare la base utenti, Sora ha poi aggiunto la funzionalità ‘character cameo’, permettendo di inserire personaggi, reali o immaginari, all’interno dei video. OpenAI la presentava come un’opportunità per l’industria dell’intrattenimento, ma molti brand non erano d’accordo.

Il timore era che il ‘character cameo portasse a una svalutazione dei personaggi per eccessiva commercializzazione della proprietà intellettuale.

A gennaio, dopo le difficoltà nel coinvolgere i grandi brand, è arrivata la svolta: Disney e OpenAI hanno annunciato una partnership per portare i volti di Pixar, Marvel, Star Wars e altri universi su Sora.

L’accordo permetteva a Disney di accedere alla tecnologia di OpenAI per sperimentare nuovi strumenti produttivi. Uno scambio di proprietà intellettuale in cui i marchi della casa cinematografica portavano utenti a Sora, mentre la tecnologia IA abbassava i costi di produzione.

La partnership non è bastata, con il ritiro di Sora dal mercato a marzo 2026, sei mesi dopo il lancio. Dopo una buona accoglienza iniziale, l’applicazione aveva perso terreno per la bassa qualità dei video, bollati come ‘slop’, e per gli eccessivi token richiesti per la produzione, a conferma che la tecnologia non era ancora al livello degli altri servizi di OpenAI.

Sam Altman. Fonte: Shutterstock

L’industria dei micro-drammi

Mentre Sora si rivelava un esperimento fallimentare, dall’altra parte del Pacifico il mercato cinese mostrava segnali di maturità nella produzione audiovisiva tramite IA.

Secondo il New York Times, a marzo, mentre OpenAI ritirava la propria applicazione, su Douyin, il TikTok cinese, venivano caricati 50-mila episodi di micro-drammi generati con l’IA, quasi quanti ne erano stati caricati nell’intero 2025.

Stando all’articolo, l’industria dei micro-drammi sta prendendo sempre più importanza nel mercato cinese, con un valore totale che si aggira intorno ai 14 miliardi di dollari, di cui tre sono interamente generati da video IA. Questo è reso possibile dalla crescente qualità offerta dalle compagnie cinesi.

Come riportato da Bloomberg, influenzata da questa tendenza e in risposta alla crescente concorrenza di piattaforme come Douyin, ad aprile IQiyi Inc., la più grande piattaforma di streaming cinese, ha annunciato che entro cinque anni la maggior parte dei propri film e serie tv saranno interamente generate dall’IA.

Contemporaneamente ha lanciato Nadou Pro, uno strumento IA che può supportare ogni fase del processo creativo cinematico, dalla scrittura all’editing.

Quello che accade in Cina è una lente su come lo sviluppo degli strumenti IA per la generazione video cambierà l’industria dell’intrattenimento.

Il futuro dei prodotti audiovisivi

Infatti, secondo una ricerca condotta da McKinsey & Company, l’IA andrà ben oltre la generazione di sfondi come visto in House of David di Amazon.

Con il tempo di visione in calo e la crescente porzione di mercato erosa dalle piattaforme social, l’industria dovrà trovare il modo di aumentare la propria competitività.

Negli ultimi tempi le grandi case di produzione cinematografica stanno cambiando le priorità di spesa, concentrandosi maggiormente sulla profittabilità, piuttosto che sullo sviluppo. In questo contesto, l’IA premette un grosso impatto, aumentando il margine di profitto e limitando i costi di produzione.

Questo perché ci sarà un passaggio dalla post-produzione, che in questo momento rappresenta una grande fetta dei costi di uno studio, alla preproduzione, che diventerà con l’adozione dell’IA più affidabile e rilevante.

Ci sarà poi anche un cambiamento proprio nel processo cinematografico, con meno bisogno di set all’aperto, grazie alla creazione di spazi virtuali, e meno seconde riprese, grazie alla possibilità di modificare i video e le immagini con l’IA.

L’impatto a lungo termine resta incerto, ma secondo la ricerca di McKinsey l’IA potrà cambiare non solo le modalità di produzione, ma permetterà un processo di democratizzazione dell’industria.

Sempre più contenuti verranno prodotti da creator amatoriali, grazie ai costi più accessibili che ridisegneranno la competizione tra grandi studi e produttori indipendenti.

Tuttavia, queste tendenze non segnalano la fine della creatività. L’IA è uno strumento che non è in grado di generare video in autonomia, richiedendo necessariamente la supervisione umana.

Almeno per il momento, l’industria dell’intrattenimento rimane in mano all’immaginazione di registi, sceneggiatori e di tutti gli addetti ai lavori.

Devi essere loggato per lasciare un commento.
Rocco De Carolis
/ Published posts: 15

Rocco De Carolis è contributor per Mediatrends, dove scrive di guerra ibrida, comunicazione politica e dinamiche digitali dell’informazione. Studente di Global Humanitarian Studies presso UCL, ha una formazione in sicurezza internazionale e geopolitica, consolidata con un Diploma in Global Security presso ISPI. Ha partecipato a missioni umanitarie in America Latina e coordina programmi di mentoring nel Regno Unito per United Italian Societies. Scrive di disinformazione, propaganda, interferenze straniere, comunicazione politica e attivismo sui media digitali. È interessato alle fratture del presente: conflitti, potere, narrazioni e alle loro conseguenze sociali. Studia in particolare il ruolo dei dati e della comunicazione nei processi politici, con un’attenzione specifica al sistema politico e mediatico anglo-americano.