Uno dei pionieri del deep learning riunisce vecchie idee per delineare un nuovo percorso per l’IA, ma solleva tante domande quante risposte.
MIT Technology Review
Circa un anno e mezzo fa, Yann LeCun si rese conto che si sbagliava.
LeCun, scienziato capo presso il laboratorio di Intelligenza Artificiale (AI) di Meta e professore alla New York University (USA), è uno dei ricercatori di intelligenza artificiale più influenti al mondo. Stava cercando di fornire alle macchine una comprensione di base di come funziona il mondo, una sorta di buon senso, allenando le reti neurali per prevedere cosa sarebbe successo dopo nei video degli eventi quotidiani. Ma indovinare i fotogrammi futuri di un video pixel per pixel era molto complesso. È andato a sbattere contro un muro.
Ora, dopo mesi di ricerca su ciò che mancava, ha una nuova visione audace per la prossima generazione di intelligenza artificiale. In una bozza di documento condivisa con la US MIT Technology Review, LeCun delinea un approccio che secondo lui un giorno darà alle macchine il buon senso di cui hanno bisogno per navigare nel mondo. (Aggiornamento: da allora LeCun ha pubblicato il documento online.)
Per LeCun, le proposte potrebbero essere i primi passi verso la costruzione di macchine con la capacità di ragionare e pianificare come gli esseri umani, quella che molti chiamano Intelligenza Generale Artificiale, o AGI. Si discosta anche dalle attuali tendenze dell’apprendimento automatico, resuscitando alcune vecchie idee che sono passate di moda.
Ma la sua visione è tutt’altro che completa; in effetti, può sollevare più domande di quante ne risponda. Il più grande punto interrogativo, come sottolinea lo stesso LeCun, è che non sa come costruire ciò che descrive.
Il fulcro del nuovo approccio è una rete neurale che può imparare a vedere il mondo a diversi livelli di dettaglio. Abbandonando la necessità di previsioni perfette per i pixel, questa rete si concentrerebbe solo sulle caratteristiche di una scena che sono rilevanti per l’attività in corso. LeCun propone di accoppiare questa rete principale con un’altra, chiamata configuratore, che determina quale livello di dettaglio è necessario e regola di conseguenza l’intero sistema.
Per LeCun, AGI sarà parte del modo in cui interagiamo con la tecnologia del futuro. La sua visione è influenzata da quella del suo datore di lavoro, Meta, che sta promuovendo un metaverso di realtà virtuale. Dice che tra 10 o 15 anni le persone non porteranno in tasca smartphone, ma occhiali per realtà aumentata dotati di assistenti virtuali che guideranno l’uomo durante la giornata. “Per essere più utili per noi, fondamentalmente devono avere un’intelligenza più o meno a livello umano”, dice.
“Yann parla da tempo di molte di queste idee”, afferma Yoshua Bengio, ricercatore di intelligenza artificiale presso l’Università di Montreal, in Canada, e direttore scientifico del Mila-Quebec Institute. “Ma è bello vederlo tutto insieme, come in una grande immagine”. Bengio pensa che LeCun faccia le domande giuste. Pensa anche che sia fantastico che LeCun sia disposto a pubblicare un documento che ha così poche risposte. È una proposta di ricerca e non un set di risultati pulito, dice.
“Le persone parlano di queste cose in privato, ma di solito non vengono condivise pubblicamente”, afferma Bengio. “È rischioso”.
Una questione di buon senso
LeCun pensa all’IA da quasi 40 anni. Nel 2018 è stato il vincitore congiunto del premio più importante per l’informatica, il Turing Award, con Bengio e Geoffrey Hinton, per il loro lavoro pionieristico nel deep learning. “Fare in modo che le macchine si comportino come esseri umani e animali è stata la missione della mia vita”, afferma.
LeCun pensa che il cervello degli animali esegua una sorta di simulazione del mondo, che chiama un modello del mondo. Appreso durante l’infanzia, è il modo in cui gli animali (compresi gli esseri umani) fanno buone ipotesi su cosa sta succedendo intorno a loro. I bambini imparano le basi nei primi mesi di vita guardando il mondo, dice LeCun. Vedere una palla cadere una manciata di volte è sufficiente per dare a un bambino un’idea di come funziona la gravità.
“Buon senso” è il termine generico per questo tipo di ragionamento intuitivo. Include una comprensione della fisica semplice: ad esempio, sapere che il mondo è tridimensionale e che gli oggetti non scompaiono quando sono fuori vista. Ci permette di prevedere dove sarà una palla che rimbalza o una bicicletta in corsa tra pochi secondi. E questo ci aiuta a collegare i punti tra informazioni incomplete: se sentiamo un rumore metallico provenire dalla cucina, possiamo intuire che qualcuno ha fatto cadere una padella, perché sappiamo che tipo di oggetti fanno quel rumore e quando lo fanno.
In breve, il buon senso ci dice quali eventi sono possibili e quali sono impossibili e quali eventi sono più probabili di altri. Ci permette di prevedere le conseguenze delle nostre azioni e di fare piani, oltre a ignorare i dettagli irrilevanti.
Ma insegnare il buon senso alle macchine è difficile. Le reti neurali di oggi devono ricevere migliaia di esempi prima che inizino a identificare questi modelli.
In molti modi, il buon senso equivale alla capacità di prevedere cosa accadrà dopo. “Questa è l’essenza dell’intelligenza”, afferma LeCun. Ecco perché lui e alcuni altri ricercatori hanno utilizzato i video per addestrare i loro modelli. Ma le tecniche di apprendimento automatico esistenti richiedevano che i modelli prevedessero esattamente cosa sarebbe successo nel fotogramma successivo e generassero il risultato pixel per pixel. Immagina di tenere una penna e farla cadere, dice LeCun. Il buon senso ti dice che la penna cadrà, ma non nella posizione esatta in cui andrà a finire. La previsione di ciò richiederebbe l’elaborazione di alcune equazioni fisiche difficili.
Ecco perché LeCun sta ora cercando di addestrare una rete neurale che può concentrarsi solo sugli aspetti rilevanti del mondo: prevedere che la penna cadrà, ma non esattamente come. Vede questa rete addestrata come l’equivalente del modello mondiale di cui gli animali si fidano.
Ingredienti misteriosi
LeCun afferma di aver costruito una prima versione di questo modello mondiale in grado di eseguire il riconoscimento di oggetti di base. Ora sta lavorando per addestrarlo a fare previsioni. Ma come dovrebbe funzionare il configuratore rimane un mistero, dice. LeCun immagina questa rete neurale come il controller dell’intero sistema. Deciderebbe che tipo di previsioni il modello mondiale dovrebbe fare in un dato momento e su quale livello di dettaglio dovrebbe concentrarsi per rendere possibili tali previsioni, adattando il modello mondiale secondo necessità.
LeCun è convinto che sia necessario qualcosa come un configuratore, ma non sa come addestrare una rete neurale per fare il lavoro. “Dobbiamo trovare una buona ricetta per farlo funzionare, e non l’abbiamo ancora”, dice.
Secondo LeCun, il modello del mondo e il configuratore sono due elementi chiave di un sistema più ampio, noto come architettura cognitiva, che include altre reti neurali, come un modello percettivo che rileva il mondo e un modello che utilizza le ricompense per motivare. AI per sfruttare o frenare il tuo comportamento.
Ogni rete neurale è più o meno analoga a parti del cervello, afferma LeCun. Ad esempio, il configuratore e il modello mondiale hanno lo scopo di replicare le funzioni della corteccia prefrontale. Il modello motivazionale corrisponde a determinate funzioni dell’amigdala e così via.
L’idea delle architetture cognitive, in particolare quelle ispirate al cervello, esiste da decenni. Così come molte delle idee di LeCun sulla previsione utilizzando modelli con diversi livelli di dettaglio. Ma quando il deep learning è diventato l’approccio dominante all’IA, molte di quelle vecchie idee sono passate di moda. “Le persone nella ricerca sull’intelligenza artificiale se ne sono un po’ dimenticate”, dice.
Quello che ha fatto è stato prendere queste vecchie idee e riabilitarle, suggerendo modi per combinarle con il deep learning. Per LeCun, rivisitare queste idee antiquate è essenziale, perché crede che i due approcci dominanti nell’IA moderna siano vicoli ciechi.
Quando si tratta di costruire un’IA generica, ci sono due campi principali. In uno, molti ricercatori ritengono che lo straordinario successo di modelli linguistici o di imaging molto grandi, come GPT-3 e DALL-E di OpenAI, dimostri che tutto ciò che dobbiamo fare è costruire modelli sempre più grandi.
Nell’altro campo ci sono i campioni del rinforzo dell’apprendimento, la tecnica dell’IA che premia comportamenti specifici per far apprendere le reti neurali attraverso tentativi ed errori. Questo è l’approccio utilizzato da DeepMind per addestrare le sue IA di gioco come AlphaZero. Ottieni le giuste ricompense e il rinforzo dell’apprendimento alla fine produrrà un’intelligenza più generale.
LeCun non accetta nulla di tutto ciò: “L’idea che stiamo solo andando a scalare e replicare gli attuali grandi modelli linguistici e alla fine emergerà un’IA a livello umano… Non ci credo, nemmeno per un secondo .” Questi fantastici modelli manipolano solo parole e immagini, dice. Non hanno esperienza empirica del mondo.
Allo stesso modo è scettico sul rinforzo dell’apprendimento, perché richiede grandi quantità di dati per addestrare i modelli a svolgere anche compiti semplici. “Non credo che questo abbia alcuna possibilità di funzionare”, afferma LeCun.
David Silver di DeepMind, che ha guidato il lavoro su AlphaZero ed è un forte sostenitore del rinforzo dell’apprendimento, non è d’accordo con tale valutazione, ma accoglie favorevolmente la panoramica di LeCun. “È una nuova proposta entusiasmante su come rappresentare e apprendere un modello mondiale”, afferma.
Anche Melanie Mitchell, ricercatrice di intelligenza artificiale presso il Santa Fe Institute (USA), è entusiasta di vedere un approccio completamente nuovo. “Non immaginavamo davvero che questo sarebbe venuto dalla comunità del deep learning”, afferma. È anche d’accordo con LeCun sul fatto che i grandi modelli linguistici non possono essere l’intera storia. “Non hanno memoria e modelli interni del mondo che sono importanti”, dice.
Tuttavia, Natasha Jaques, ricercatrice di Google Brain, pensa che i modelli di lettura la lingua dovrebbe ancora svolgere un ruolo. È strano che il linguaggio sia del tutto assente dalle proposte di LeCun, dice: “Sappiamo che i grandi modelli linguistici sono super efficaci e incarnano molta conoscenza umana”.
Jaques, che lavora sui modi per far sì che le IA condividano informazioni e abilità tra loro, sottolinea che gli esseri umani non hanno bisogno di avere un’esperienza diretta di qualcosa per impararlo. Possiamo cambiare il nostro comportamento semplicemente ascoltando qualcosa, come non toccare una padella calda. “Come posso aggiornare questo modello del mondo che Yann propone se non ho lingua?” lei chiede.
C’è anche un altro problema. Se funzionassero, le idee di LeCun creerebbero una potente tecnologia che potrebbe essere rivoluzionaria come Internet. Eppure la sua proposta non discute di come sarebbero controllati i comportamenti e le motivazioni del suo modello, o chi li controllerebbe. Questa è una strana omissione, afferma Abhishek Gupta, fondatore del Montreal AI Ethics Institute ed esperto di intelligenza artificiale presso il Boston Consulting Group.
“Dovremmo pensare di più a ciò che serve affinché l’IA funzioni bene in una società, e ciò richiede di pensare al comportamento etico, tra le altre cose”, afferma Gupta.
Tuttavia, Jaques osserva che le proposte di LeCun sono ancora molto più idee che applicazioni pratiche. Mitchell dice lo stesso: “C’è sicuramente poco rischio che questa diventi presto un’intelligenza a livello umano”.
LeCun sarebbe d’accordo. Il suo scopo è gettare i semi di un nuovo approccio nella speranza che altri possano costruire su di esso. “Questo è qualcosa che richiederà un grande sforzo da parte di molte persone”, dice. “Lo sto pubblicando perché penso che, alla fine, questa sia la via da seguire”. Se non altro, vuole convincere le persone che ottimi modelli linguistici e il rafforzamento dell’apprendimento non sono le uniche vie da seguire.
“Odio vedere le persone perdere tempo”, dice.