Il nuovo modello di intelligenza artificiale di Meta può tradurre discorsi da oltre 100 lingue

Meta ha presentato un modello di intelligenza artificiale in grado di tradurre il parlato da un massimo di 101 lingue, segnando un significativo passo avanti verso l’interpretazione simultanea in tempo reale, in cui le parole vengono tradotte mentre vengono pronunciate. In genere, i modelli di traduzione vocale seguono un processo in più fasi: innanzitutto convertono il parlato in testo; poi traducono il testo in un’altra lingua; Infine, trasformano il testo tradotto in parlato nella lingua di destinazione. Questo metodo è suscettibile di errori e inefficienze in ogni fase. Tuttavia, il nuovo modello di Meta, chiamato SeamlessM4T, consente una traduzione più diretta tra discorsi in diverse lingue, come descritto in un articolo pubblicato oggi su Nature.

Seamless offre il 23% in più di precisione nelle traduzioni di testo rispetto ai modelli principali. Sebbene AudioPaLM di Google supporti più lingue (113 contro 101 di Seamless), si traduce solo in inglese. SeamlessM4T si traduce in altre 36 lingue.

Il modello utilizza un processo chiamato data mining parallelo, che identifica i casi in cui il suono di video o audio corrisponde ai sottotitoli in altre lingue, raccolti dal web. Ciò ha permesso al modello di associare i suoni in una lingua con testi equivalenti in un’altra, ampliando sostanzialmente la sua serie di esempi di traduzione.

“L’ampiezza delle funzioni che Meta sta sviluppando è impressionante, come la sintesi vocale, la sintesi vocale e il riconoscimento vocale automatico”, commenta Chetan Jaiswal, professore di informatica alla Quinnipiac University, non coinvolto nello studio. “Il numero di lingue supportate è un risultato notevole.”

Nonostante le innovazioni, afferma lo studio, gli esperti umani svolgono ancora un ruolo essenziale nel processo di traduzione, soprattutto nel trattare i contesti culturali e nel garantire l’accuratezza del significato tra le lingue. Lynne Bowker, ricercatrice nel settore presso l’Università Laval, osserva: “Le lingue riflettono le culture, e le culture hanno le proprie forme di conoscenza”.

Applicazioni come la medicina o il diritto richiedono che le traduzioni automatiche siano rigorosamente revisionate da esseri umani, afferma. In caso contrario potrebbero verificarsi malintesi. Ad esempio, nel gennaio 2021, Google Translate è stato utilizzato per tradurre le informazioni sulla salute pubblica sul vaccino Covid-19 del Dipartimento della Salute della Virginia. Lo strumento interpretava “non obbligatorio” in inglese come “non necessario” in spagnolo, cambiando completamente il significato del messaggio.

I modelli di intelligenza artificiale hanno molti più esempi di formazione in alcune lingue rispetto ad altre. Ciò significa che gli attuali modelli di traduzione vocale possono tradurre, ad esempio, il greco in inglese, dove sono disponibili molti esempi, ma non possono tradurre dallo swahili al greco. Il team dietro Seamless ha cercato di risolvere questo problema pre-addestrando il modello con milioni di ore di audio parlato in diverse lingue. Ciò gli ha permesso di riconoscere modelli generali nella lingua, rendendo più semplice l’elaborazione delle lingue meno parlate, poiché il modello aveva una base precedente su come dovrebbe suonare una lingua parlata.

Il sistema è open source e i ricercatori sperano che ciò incoraggi altri sviluppatori ad espandere le attuali capacità del modello. Tuttavia, c’è scetticismo sulla sua utilità rispetto alle alternative disponibili. “Il modello di traduzione di Google non è aperto come Seamless, ma è molto più reattivo e veloce e non costa nulla agli accademici”, afferma Jaiswal.

L’aspetto più interessante del sistema di Meta è che punta alla possibilità di un’interpretazione istantanea attraverso le lingue nel prossimo futuro, come il Babel Fish nel romanzo cult di Douglas Adams, La guida galattica per gli autostoppisti. SeamlessM4T è più veloce dei modelli esistenti, ma non è ancora istantaneo. Detto questo, Meta afferma di avere una versione più recente di Seamless che è veloce quanto gli interpreti umani.

“Sebbene la traduzione ritardata sia utile e abbia valore, credo che la traduzione simultanea sarà ancora più vantaggiosa”, afferma Kenny Zhu, direttore dell’Arlington Computational Linguistics Lab presso l’Università del Texas ad Arlington, che non è coinvolto nella nuova ricerca.

( fonte: MIT Technology Review)