
L’audio e la voce sono sempre più al centro della rivoluzione portata dell’intelligenza artificiale. L’ultima conferma arriva da Google, che martedì 29 aprile ha annunciato l’aggiunta di oltre 50 lingue alla funzione Audio Overviews, in grado di trasformare documenti in conversazioni audio in pieno stile podcast.
Per la precisione, scrive Techcrunch – che ha pubblicato l’elenco completo, sono 76 le lingue aggiunte allo strumento presente nell’applicazione IA NotebookLM, specializzata nel lavoro sui documenti testuali, come appunti e Pdf.
Fra le varie alternative, c’è anche l’italiano.
La funzione Audio Overviews è stata lanciata nel 2024 dal gruppo di Menlo Park, mentre la sua app di riferimento, NotebookLM, esiste dal 2023.
La novità è importante, poiché, se fino a pochi giorni fa la conversazione audio poteva essere creata soltanto nella lingua predefinita dell’utente, ora è possibile scegliere fra diverse opzioni.
Una delle caratteristiche sulle quali il gruppo californiano ha messo di più l’accento è la facilità con cui ogni utente può utilizzare o cambiare una lingua.
La stessa Google ha sottolineato le grandi potenzialità dello strumento.
“È solo l’inizio di ciò che questa funzione è in grado di fare”, si legge in una nota.
Nello stesso giorno dell’aggiornamento di Audio Overviews, Meta ha annunciato la sua applicazione separata di IA, chiamata Meta AI.
Anche per l’app della compagnia di Mark Zuckerberg la voce ha un ruolo cruciale.
In questo caso, però, il focus non è sulla conversione e modifica di un contenuto da testo ad audio, ma sulla conversazione fra utente e assistente IA.
Per renderla più naturale, Meta utilizza una tecnologia avanzata di sintesi vocale chiamata full-duplex, mentre Google sfrutta l’architettura di IA Retrieval-Augmented Generation per migliorare l’accuratezza dei contenuti e ridurne le allucinazioni.
Podcast di nome
Non è un caso che, nella nota di annuncio, Google abbia scelto l’insegnamento come esempio delle possibile applicazioni dei diversi linguaggi.
Su Forbes, l’autore Roger Dooley evidenzia come, nonostante le sue prestazioni molto elevate in termini di naturalezza e fluidità, Audio Overviews non abbia finora iniziato a rimpiazzare le voci umane nei podcast.
Qualche prodotto creato con voci generate dall’IA di NotebookLM è sì comparso, ma conduttori e giornalisti non hanno perso il proprio posto a causa dell’app di Google.
Dove invece l’opzione multi-lingua di Audio Overviews può fare la differenza, sottolinea Dooley, è proprio l’insegnamento, oltre all’ambito aziendale.
Nel settore educativo, lo strumento potrebbe, ad esempio, raccogliere prodotti – come documentari, articoli scientifici e materiale didattico – in diverse lingue e tradurli in una soltanto, sintetizzarli e fornire un contenuto audio omogeneo e coerente da utilizzare in una o più lezioni.
In aziende con sedi in diversi Paesi, la funzione di NotebookLM può facilitare la condivisione di informazioni fra uffici e colleghi di nazionalità differente.

La sede di Google a Mountain View, in California. Foto: Flickr.
Secondo la firma di Forbes, la novità e le capacità di conversazione di Audio Overviews rappresentano un altro passo in avanti verso il superamento del confine che rende i contenuti prodotti direttamente dall’essere umano distinguibili da quelli generati dall’IA.
Eppure, i limiti dello strumento sono ancora evidenti.
Gli utenti ancora non possono scegliere il numero di voci, la loro età, gli accenti e la durata della conversazione. In più, viene prodotto soltanto un unico file audio e non è possibile richiedere tracce separate da integrare con formati video.
Ma, con ogni probabilità, è solo questione di tempo prima che anche queste funzioni diventino realtà.