Il CEO di Google parla di Gemini e della prossima era dell’intelligenza artificiale

Google ha lanciato la prima fase del suo modello di intelligenza artificiale di prossima generazione, Gemini, il 6 dicembre. Lo strumento riflette anni di impegno all’interno dell’azienda, supervisionato e guidato dal suo CEO, Sundar Pichai.

Pichai, che in precedenza ha supervisionato Chrome e Android, è famoso per la sua ossessione per i prodotti. Nella sua prima lettera da fondatore come CEO nel 2016, aveva predetto che “passeremo da un mondo mobile-first a un mondo AI-first”. Negli anni successivi, Pichai ha incorporato profondamente l’intelligenza artificiale in ogni prodotto Google, dai dispositivi Android al cloud.

Nonostante ciò, l’ultimo anno è stato in gran parte caratterizzato dai lanci di intelligenza artificiale di un’altra società, OpenAI. I lanci di DALL-E e GPT-3.5 lo scorso anno, seguiti quest’anno da GPT-4, hanno dominato il settore e hanno dato il via a una corsa agli armamenti tra startup e giganti della tecnologia.

Gemini è ora l’ultimo sforzo in quella gara. Questo sistema di nuova generazione è stato guidato da Google DeepMind, la nuova organizzazione integrata guidata da Demis Hassabis che riunisce i team di intelligenza artificiale dell’azienda sotto un unico ombrello. Puoi provare Gemini su Bard oggi e sarà integrato nella gamma di prodotti dell’azienda per tutto il 2024.

Abbiamo parlato con Sundar Pichai negli uffici di Google a Mountain View, in California, alla vigilia del lancio di Gemini, per discutere cosa significherà lo strumento per Google, i suoi prodotti, l’intelligenza artificiale e la società in generale.

La seguente trascrizione rappresenta Pichai con le sue stesse parole. La conversazione è stata modificata per maggiore chiarezza e leggibilità.

Perché i Gemelli sono eccitanti? Puoi dirmi qual è il quadro generale che vedi riguardo all’intelligenza artificiale, la sua potenza, la sua utilità e la direzione che prenderà in tutti i tuoi prodotti?

Sundar Pichai: Una parte specifica di ciò che rende Gemini entusiasmante è il fatto che si tratta di un modello nativamente multimodale fin dall’inizio. Proprio come gli esseri umani, non si tratta solo di imparare dal testo. È testo, audio, codice… Quindi il modello è intrinsecamente più capace per questo motivo, e penso che ci aiuterà a scoprire nuove capacità e a contribuire al progresso del campo. Questo è eccitante.

È interessante anche perché Gemini Ultra è all’avanguardia in 30 dei 32 principali benchmark, soprattutto nei benchmark multimodali. Questo benchmark MMMU mostra i progressi. Personalmente, trovo entusiasmante che in MMLU [massive multi-task Language Understanding], che è stato uno dei principali parametri di riferimento, abbia superato la soglia del 90%, che è un traguardo enorme. Lo stato dell’arte due anni fa era al 30% o al 40%. Quindi basti pensare a quanto sta progredendo il campo. Circa l’89% sono esperti umani su questi 57 argomenti. Questo è il primo modello a superare questo limite.

Sono anche entusiasta che finalmente arrivi ai nostri prodotti. Sarà disponibile per gli sviluppatori. È una piattaforma. L’intelligenza artificiale rappresenta un profondo cambiamento della piattaforma, più grande del web o del mobile. Pertanto, anche per noi in questo momento rappresenta un grande passo avanti.

Cominciamo con questi benchmark. Sembrava essere avanti rispetto a GPT-4 in quasi tutti, o nella maggior parte, ma non di molto. GPT-4 sembrava essere un grande progresso. Stiamo iniziando a stabilizzarsi con ciò che vedremo alcune di queste grandi tecnologie di modello linguistico essere in grado di fare o pensi che continueremo ad avere queste grandi curve di crescita?

Innanzitutto, guardando al futuro, vediamo molto spazio libero. Alcuni parametri di riferimento sono già elevati. Devi renderti conto che, quando cerchi di raggiungere qualcosa al di sopra dell’85%, sei già al limite della curva. Quindi potrebbe non sembrare molto, ma stiamo facendo progressi. Avremo bisogno anche di nuovi parametri di riferimento. Questo è uno dei motivi per cui abbiamo esaminato anche il benchmark multimodale MMLU. [Per alcuni di questi nuovi parametri di riferimento, lo stato dell’arte è ancora di gran lunga inferiore. Ci sono molti progressi da fare. Le leggi di scala continueranno a funzionare. Man mano che aumentiamo le dimensioni dei modelli, ci saranno maggiori progressi. Quando lo vedo nella sua interezza, mi sembra davvero di essere all’inizio.

Mi interessa sapere quali consideri i principali progressi di Gemini e come verranno applicati.

È molto difficile per le persone immaginare i balzi che avverranno. Stiamo fornendo API e le persone lo immagineranno in modi molto profondi.

Penso che la multimodalità sarà importante. Man mano che insegniamo a questi modelli a ragionare di più, ci saranno progressi sempre maggiori. Progressi più profondi devono ancora arrivare.

Un modo per pensare a questa domanda è il Gemini Pro. Si comporta molto bene nei benchmark. Ma quando l’abbiamo messo su Bard, ho potuto percepirlo come utente. Lo abbiamo testato e le valutazioni di favore sono aumentate in modo significativo in tutte le categorie. Ecco perché lo chiamiamo uno dei nostri più grandi aggiornamenti fino ad oggi. E quando eseguiamo valutazioni cieche affiancate, mostriamo prestazioni davvero superiori. In questo modo, fai in modo che questi modelli migliori migliorino i benchmark. Questo fa progressi. E continueremo ad allenarci e ad andare avanti da lì.

Ma non vedo l’ora di inserirlo nei nostri prodotti. Questi modelli sono molto capaci. In effetti, progettare esperienze di prodotto per sfruttare tutto ciò che i modelli hanno: sarà entusiasmante nei prossimi mesi.

Immagino che ci fosse un’enorme pressione affinché i Gemelli venissero rilasciati. Sono curioso di sapere cosa hai imparato vedendo cosa è successo con il lancio del GPT-4. Cos’hai imparato? Quali approcci sono cambiati in questo periodo?

Una cosa, almeno a me: sembra ben lontano dall’essere un gioco a somma zero, giusto? Pensa a quanto profondo sia il passaggio all’intelligenza artificiale e a come sia ancora agli inizi. C’è un mondo di opportunità davanti a noi.

Ma per quanto riguarda la tua domanda specifica, si tratta di un campo ricco in cui tutti stiamo facendo progressi. C’è una componente scientifica, c’è una componente accademica, che viene pubblicata molto, vedendo come funzionano modelli come GPT-4 nel mondo reale. Impariamo da questo. La sicurezza è un settore importante. Quindi, in parte con Gemini, ci sono tecniche di sicurezza che apprendiamo e miglioriamo in base al modo in cui i modelli funzionano nel mondo reale. Ciò dimostra l’importanza di diverse cose, come la messa a punto.

Una delle cose che abbiamo mostrato con Med-PaLM 2 è stata quella di prendere un modello come PaLM, adattarlo effettivamente a un dominio specifico e dimostrare che potrebbe sovraperformare i modelli più avanzati. E questo è stato un modo per imparare il potere della messa a punto. Molto di questo viene applicato quando lavoriamo su Gemini. Parte del motivo per cui stiamo dedicando più tempo a Ultra [la versione più avanzata di Gemini che sarà disponibile il prossimo anno] è per assicurarci di testarne rigorosamente la sicurezza. Ma lo stiamo anche perfezionando per esplorarne realmente le funzionalità.

Quando alcune di queste piattaforme escono e le persone iniziano ad armeggiare con loro nel mondo reale, hanno allucinazioni o potrebbero rivelare alcuni dei dati privati ​​con cui sono addestrati i loro modelli. E mi chiedo quanto di questo sia inerente alla tecnologia, dati i dati su cui è addestrata, e se ciò sia inevitabile. Se è inevitabile, che tipo di cose provi a fare per limitarlo?

Sei sicuro. Questi sono tutti campi di ricerca attivi. Infatti, abbiamo appena pubblicato un articolo che mostra come questi modelli possano rivelare dati di addestramento attraverso una serie di richieste. Le allucinazioni non sono un problema risolto. Penso che stiamo tutti facendo progressi e c’è ancora molto lavoro da fare. Ci sono alcuni limiti fondamentali che dobbiamo superare. Un esempio è Gemini Ultra, stiamo collaborando attivamente per questi modelli con terze parti esterne che lo utilizzano e che sono esperti in queste cose.

In aree come la multimodalità, vogliamo essere audaci e responsabili. Presteremo più attenzione alle implementazioni multimodali perché le possibilità di casi d’uso errati sono maggiori.

Ma hai ragione nel senso che si tratta di una tecnologia ancora in via di sviluppo, motivo per cui non avrà senso per tutto. Ecco perché nella ricerca stiamo più attenti a come, quando, cosa e dove lo usiamo e quando lo attiviamo. Hanno queste caratteristiche incredibili e hanno evidenti difetti. Questo è il duro lavoro che abbiamo tutti davanti a noi.

Pensi che alla fine questo problema sarà risolto – allucinazioni o con la rivelazione di altri dati di allenamento?

Con l’attuale tecnologia degli LLM autoregressivi, le allucinazioni non sono un problema risolto. Ma i futuri sistemi di intelligenza artificiale potrebbero non assomigliare a quelli che abbiamo oggi. Questa è una versione della tecnologia. È come quando la gente pensava che non ci fosse modo di mettere un computer in tasca. 20 anni fa c’erano persone che avevano opinioni molto forti. Allo stesso modo, guardando questi sistemi e dicendo che non è possibile progettare sistemi migliori. Non sono d’accordo con questo punto di vista. Sono già in corso molte ricerche per pensare a come risolvere questi problemi in un altro modo.

Hai parlato di quanto sia profondo questo cambiamento. In alcuni di questi ultimi cambiamenti, come nel caso della telefonia mobile, non si è verificato necessariamente un aumento della produttività, che è rimasta stabile per lungo tempo. Penso che si sostenga che ciò potrebbe aver addirittura peggiorato la disuguaglianza dei redditi. Che tipo di lavoro sta svolgendo Google per cercare di garantire che questo cambiamento sia più ampiamente vantaggioso per la società?

Questa è una domanda molto importante. Ci penso su più livelli. Una cosa su cui ci concentriamo sempre in Google è: come possiamo avere accesso alla tecnologia nel modo più ampio possibile? Quindi direi che anche nel caso dei dispositivi mobili, il lavoro che facciamo con Android – altrimenti centinaia di milioni di persone non avrebbero accesso ai computer. Abbiamo lavorato duro per realizzare uno smartphone conveniente, magari sotto i 50 dollari.

Quindi rendere l’intelligenza artificiale utile per tutti è il quadro a cui penso. Cerchi di promuovere l’accesso a quante più persone possibile. Penso che sia parte del problema.

Stiamo riflettendo profondamente su come applicarlo a casi d’uso che possano avvantaggiare le persone. Ad esempio, il motivo per cui abbiamo fatto fin dall’inizio la previsione delle inondazioni è perché ci siamo resi conto che l’intelligenza artificiale può rilevare modelli e farlo bene. Lo stiamo usando per tradurre 1.000 lingue. Stiamo letteralmente cercando di portare ora i contenuti in lingue a cui altrimenti non avresti accesso.

Questo non risolve tutti i problemi di cui parli. Ma essere consapevoli di quando e dove, su che tipo di problemi ci si concentrerà – ci concentriamo sempre su quello. Guarda aree come AlphaFold. Forniamo un database aperto per i virus in tutto il mondo. Ma… chi lo usa per primo? Dove viene venduto? L’intelligenza artificiale non migliorerà magicamente le cose su alcune delle questioni più difficili come la disuguaglianza; può esacerbarlo.

Ma l’importante è garantire che la tecnologia sia a disposizione di tutti. Lo stai sviluppando fin dalla tenera età, dando accesso alle persone e parlando con loro in modo che la società possa pensarci e adattarsi ad esso.

Senza dubbio, a questa tecnologia partecipiamo prima che ad altre tecnologie. Sapete, il recente AI Security Forum del Regno Unito o il lavoro negli Stati Uniti con il Congresso e l’amministrazione. Stiamo cercando di creare più partenariati pubblico-privato, attirando prima le istituzioni accademiche e senza scopo di lucro.

Gli impatti su aree come l’occupazione devono essere studiati in modo approfondito, ma penso che ci saranno sorprese. Ci saranno sorprendentemente esternalità positive, ma ci saranno anche esternalità negative. La soluzione alle esternalità negative è più grande di qualsiasi azienda. È il ruolo di tutti i soggetti interessati nella società. Quindi non ho risposte facili per questo.

Posso fornirvi diversi esempi dei vantaggi che la mobilità comporta. Penso che anche questo sarà vero. Lo abbiamo già dimostrato in aree come la retinopatia diabetica. Semplicemente non ci sono abbastanza medici in molte parti del mondo per rilevarlo.

Proprio come ho ritenuto che dare alle persone l’accesso alla Ricerca Google in qualsiasi parte del mondo abbia fatto una differenza positiva, penso che questo sia il modo di pensare all’espansione dell’accesso all’intelligenza artificiale.

Ci sono cose che renderanno chiaramente le persone più produttive. La programmazione ne è un ottimo esempio. Eppure la democratizzazione di questa tecnologia è proprio ciò che sta minacciando l’occupazione. E anche se non si hanno tutte le risposte per la società – e non spetta a un’azienda risolvere i problemi della società – un’azienda può lanciare un prodotto che può cambiare drasticamente il mondo e avere un impatto così profondo.

Non offriamo mai API di riconoscimento facciale. Ma le persone hanno creato API e tecnologie avanzate. Pertanto, anche questo non è nelle mani di una singola azienda. La tecnologia avanzerà.

Penso che la risposta sia più complessa di così. Anche le società possono essere lasciate indietro. Se non adottassero queste tecnologie, ciò potrebbe influire sulla loro competitività economica. Potresti perdere più posti di lavoro.

Penso che la risposta giusta sia implementare la tecnologia in modo responsabile, fare progressi e pensare alle aree in cui può causare danni sproporzionati e lavorare per ridurli. Ci saranno nuovi tipi di lavoro. Se si guarda agli ultimi 50, 60 anni, ci sono studi condotti da economisti del MIT che mostrano che la maggior parte dei nuovi posti di lavoro creati sono in nuove aree emerse da allora.

Verranno creati nuovi posti di lavoro. Ci saranno lavori che miglioreranno, in cui parte del lavoro ripetitivo verrà liberato in modo che tu possa esprimerti in modo più creativo. Puoi essere un medico, un radiologo o un programmatore. La quantità di tempo che dedichi alle attività di routine rispetto al pensiero di ordine superiore: tutte queste cose possono cambiare, rendendo il lavoro più significativo. E ci sono posti di lavoro che possono essere spostati. Quindi, come società, come possiamo riqualificare, riqualificare le persone e creare opportunità?

L’ultimo anno ha davvero messo in luce questa divisione filosofica nel modo in cui le persone pensano che dovremmo avvicinarci all’intelligenza artificiale. Potresti parlare prima di sicurezza o di casi d’uso aziendali, o di “accelerazionisti” contro “accelerazionisti”. Sei nella posizione in cui devi collegare tutte queste filosofie e riunirle. Mi piacerebbe sapere cosa pensi personalmente di provare a far confluire questi interessi in Google, che sarà leader in questo campo, in questo nuovo mondo.

Sono un ottimista riguardo alla tecnologia. Ho sempre sentito, in base alla mia vita personale, una fede nelle persone e nell’umanità. Nel complesso, penso che l’umanità sfrutterà la tecnologia a proprio vantaggio. Pertanto sono sempre stato un ottimista. Hai ragione: una tecnologia potente come l’intelligenza artificiale presenta una dualità. Ciò significa che ci saranno momenti in cui andremo avanti con coraggio perché penso che possiamo far avanzare lo stato dell’arte. Ad esempio, se l’intelligenza artificiale può aiutarci a risolvere problemi come il cancro o il cambiamento climatico, vorrai fare tutto il possibile per andare avanti rapidamente. Ma c’è sicuramente bisogno che la società sviluppi strutture per adattarsi, che si tratti di deepfake o di spostamento di posti di lavoro, ecc. Questa sarà una frontiera, non diversamente dal cambiamento climatico. Questa sarà una delle maggiori difficoltà che dovremo affrontare nel prossimo decennio.

Un altro aspetto importante e incerto è il panorama giuridico che circonda l’IA. Ci sono domande sul fair use, domande sulla capacità di proteggere i risultati. E sembra che questo sarà un grosso problema per la proprietà intellettuale. Cosa dici alle persone che utilizzano i tuoi prodotti per dare loro un senso di sicurezza che ciò che stanno facendo non li farà denunciare?

Non tutti questi argomenti hanno risposte facili. Quando creiamo prodotti come Ricerca, YouTube e altri nel mondo pre-AI, cerchiamo sempre di ottenere il giusto scambio di valore. Nel caso dell’intelligenza artificiale non è diverso. Siamo decisamente concentrati sull’assicurarci di poter formare sui dati addestrabili, in conformità con la legge, dando alle persone la possibilità di rinunciare alla formazione. E c’è un ulteriore livello in più: su cosa sia il fair use. È importante creare valore per i creatori di contenuti originali. Queste sono aree importanti. Internet ne è stato un esempio. O quando è iniziato l’e-commerce: come tracciare il confine tra e-commerce e commercio normale?

Ci saranno nuove strutture legali sviluppate nel tempo, immagino che la penserei così man mano che quest’area si evolve. Ma nel frattempo, lavoreremo duramente per rimanere dalla parte giusta della legge e garantire anche rapporti profondi con molti attuali fornitori di contenuti. Ci sono alcune aree in cui ciò è controverso, ma stiamo lavorando per risolvere questi problemi e mi impegno a lavorare per risolverli. Dobbiamo creare questo ecosistema vantaggioso per tutti affinché tutto ciò funzioni nel tempo.

Qualcosa di cui le persone sono molto preoccupate su Internet in questi giorni è il futuro del motore di ricerca. Quando disponi del tipo di tecnologia che si limita a rispondere alle tue domande, sulla base delle informazioni provenienti dal Web, c’è il timore che le persone non abbiano più bisogno di visitare quei siti. Ciò sembra avere implicazioni anche per Google. Vorrei anche sapere se stai pensando a questo in termini di attività tua.

Una delle proposte di valore uniche che abbiamo nel motore di ricerca è che aiutiamo gli utenti a trovare e imparare cose nuove, trovare risposte, ma sempre con l’obiettivo di condividere con loro la ricchezza e la diversità che esiste sul web. Questo sarà vero anche durante il nostro viaggio con la Search Generating Experience. È un principio importante in base al quale stiamo sviluppando il nostro prodotto. Penso che le persone non vengano sempre da Seeker dicendo: “Rispondimi”. Potrebbero esserci una o due domande per le quali desideri questo, ma torni comunque, impari di più o, in questo viaggio, vai più in profondità. Vogliamo costantemente assicurarci di farlo bene. E non penso che cambierà. È importante avere il giusto equilibrio.

Allo stesso modo, se aggiungi profondamente valore, ci sarà valore aziendale in ciò che offri. Abbiamo avuto domande come questa dal desktop al mobile. Questa non è una novità per noi. Mi sento a mio agio in base a tutto ciò che vediamo e al modo in cui gli utenti rispondono agli annunci di alta qualità. YouTube è un buon esempio di come abbiamo sviluppato modelli di abbonamento. Anche questo ha funzionato bene.

Come pensi che cambierà l’esperienza delle persone nel prossimo anno quando questi prodotti inizieranno ad arrivare sul mercato e ad interagire? Come cambierà la loro esperienza?

Penso che tra un anno chiunque inizi a fare qualcosa in Google Docs si aspetterà qualcosa di diverso. E se glielo dai e poi li rimetti sulla versione di Google Docs che avevamo, diciamo, nel 2022, penseranno che sia molto obsoleta. È come se i miei figli, se non avessero il controllo ortografico, penseranno che sia rotto. E tu ed io potremmo ricordare com’era usare questi prodotti prima del controllo ortografico. Ma più di ogni altra azienda, abbiamo integrato così tanta intelligenza artificiale nel motore di ricerca che le persone lo danno per scontato. Questa è una cosa che ho imparato col tempo. Non lo apprezzano.

In termini di nuove cose che le persone possono fare, man mano che sviluppiamo capacità multimodali, le persone saranno in grado di eseguire compiti più complessi in modi che non erano in grado di fare prima. E ci saranno casi d’uso reali che saranno molto più potenti.

( fonte:  MIT Technology Review )