Conversazioni esclusive che ci portano dietro le quinte di un fenomeno culturale.
da MIT Technology Review
Quando OpenAI ha lanciato ChatGPT in sordina alla fine di novembre del 2022, l’azienda di intelligenza artificiale (AI) di San Francisco non aveva grandi aspettative. Di certo, nessuno in OpenAI era preparato a una diffusione virale e a un tale successo. Da allora, l’azienda ha faticato a tenere il passo e a capitalizzare il suo successo.
I dipendenti l’hanno vista come una “anteprima di ricerca”, dice Sandhini Agarwal, che lavora alle politiche di OpenAI: un campione della versione più avanzata di una tecnologia di due anni fa e, soprattutto, un tentativo di risolvere alcuni dei suoi difetti conseguenti raccogliendo feedback dal pubblico. “Non volevamo esagerare nel definirla una svolta fondamentale”, dice Liam Fedus, uno scienziato di OpenAI che ha lavorato a ChatGPT.
Per conoscere la storia del chatbot e i dettagli su come è stato realizzato, su come OpenAI lo ha aggiornato dal lancio e su come i suoi creatori percepiscono il suo successo, ho parlato con quattro persone che hanno contribuito a sviluppare quella che è diventata una delle applicazioni internet più popolari di tutti i tempi. Oltre ad Agarwal e Fedus, ho parlato con John Schulman, cofondatore di OpenAI, e Jan Leike, leader del team di allineamento di OpenAI, che si occupa del problema di far sì che l’intelligenza artificiale faccia ciò che gli utenti vogliono (e nient’altro).
Dopo la conversazione, ho avuto la sensazione che OpenAI sia ancora confusa dal successo della sua anteprima di ricerca, ma che abbia colto l’opportunità di far progredire questa tecnologia osservando come milioni di persone la utilizzano e cercando di risolvere i problemi peggiori non appena si presentano.
OpenAI ha già aggiornato ChatGPT diverse volte da novembre. I ricercatori stanno utilizzando una tecnica chiamata adversarial training per evitare che ChatGPT permetta agli utenti di ingannarlo e farlo comportare male (un processo noto come jailbreak). L’addestramento mette diversi chatbot l’uno contro l’altro: un chatbot svolge il ruolo di avversario e attacca un altro chatbot generando testo per costringerlo ad andare contro le sue restrizioni abituali e a produrre risposte indesiderate. Gli attacchi riusciti vengono aggiunti ai dati di addestramento di ChatGPT nella speranza che impari a ignorarli.
OpenAI ha anche firmato un accordo multimiliardario con Microsoft e ha annunciato una partnership con Bain, una società di consulenza manageriale globale, che prevede di utilizzare i modelli di IA generativa di OpenAI nelle campagne di marketing per i suoi clienti, tra cui Coca-Cola. Al di fuori di OpenAI, il fermento per ChatGPT ha scatenato un’altra corsa all’oro intorno ai grandi modelli linguistici, con aziende e investitori di tutto il mondo che vogliono partecipare.
È un bel po’ di confusione in soli tre mesi. Da dove nasce ChatGPT? Quali passi ha fatto OpenAI per assicurarsi che fosse pronto per il rilascio? E quali sono i prossimi passi?
Il testo che segue è stato modificato per chiarezza e concisione.
Jan Leike: In realtà è stato spaventoso. Siamo stati colti di sorpresa e stiamo cercando di tenere il passo.
John Schulman: Seguivo Twitter nei giorni successivi al lancio e c’è stato un periodo pazzesco in cui il feed era pieno di screenshot di ChatGPT. Mi aspettavo che fosse intuitivo per le persone e che guadagnasse follower, ma non mi aspettavo che raggiungesse quel livello di popolarità.
Sandhini Agarwal: Credo che sia stata una sorpresa per tutti noi vedere quanto le persone abbiano iniziato a utilizzare lo strumento. Lavoriamo così tanto con questi modelli che a volte dimentichiamo quanto possano essere sorprendenti per il mondo esterno.
Liam Fedus: Siamo stati piuttosto sorpresi di quanto sia stato accolto bene. Sapevo che le probabilità erano contro di noi, a causa di diversi tentativi precedenti di creare un chatbot generico. Tuttavia, la nostra beta privata ci ha fatto credere che avevamo qualcosa che poteva piacere alle persone.
Jan Leike: Mi piacerebbe capire meglio cosa sta spingendo tutto questo, cosa lo sta facendo diventare virale. Onestamente, non lo capiamo. Non lo capiamo.
Parte della perplessità del team deriva dal fatto che la maggior parte della tecnologia che anima ChatGPT non è nuova. ChatGPT è una versione migliorata di GPT-3.5, una famiglia di modelli linguistici di grandi dimensioni che OpenAI ha rilasciato qualche mese prima del chatbot. Lo stesso GPT-3.5 è una versione aggiornata del GPT-3, apparso nel 2020. L’azienda rende disponibili questi modelli sul suo sito web come interfacce di programmazione delle applicazioni (API), il che rende facile per altri sviluppatori di software inserire i modelli nel proprio codice. OpenAI ha anche rilasciato una versione migliorata di GPT-3.5, chiamata InstructGPT, nel gennaio 2022. Tuttavia, nessuna di queste versioni precedenti della tecnologia è stata presentata al pubblico.
Liam Fedus: Il modello ChatGPT è raffinato a partire dallo stesso modello linguistico di InstructGPT ed è messo a punto con una metodologia simile. Abbiamo aggiunto alcuni dati di conversazione e modificato un po’ il processo di addestramento. Non volevamo quindi esagerare dicendo che si trattava di una svolta fondamentale. È emerso che i dati di conversazione hanno avuto un grande impatto positivo su ChatGPT.
John Schulman: Le capacità tecniche grezze, valutate con parametri convenzionali, non mostrano grandi differenze tra i modelli, ma ChatGPT è più accessibile e utilizzabile.
Jan Leike: In un certo senso, possiamo considerare ChatGPT come una versione di un sistema di intelligenza artificiale che abbiamo da tempo.
Non si tratta essenzialmente di un modello più capace di quello che avevamo prima. Gli stessi modelli di base erano disponibili nell’API quasi un anno fa, prima del lancio di ChatGPT. Ma se lo si guarda da un altro punto di vista, lo abbiamo reso più in linea con ciò che gli esseri umani vogliono fare con esso. Parla con l’utente in un dialogo, la sua interfaccia è una chat facilmente accessibile, cerca di essere utile. È un progresso incredibile e credo che la gente lo stia notando.
John Schulman: Riesce a dedurre più facilmente le intenzioni delle persone. E gli utenti possono ottenere ciò che vogliono attraverso questo scambio.
ChatGPT è stato addestrato in modo molto simile a InstructGPT, utilizzando una tecnica chiamata reinforcement learning with human feedback (RLHF). Questo è l’ingrediente segreto di ChatGPT. L’idea di base è quella di prendere un grande modello linguistico che tende a produrre ciò che si vuole – in questo caso, GPT-3.5 – e modificarlo insegnando al programma il tipo di risposte che gli utenti umani preferiscono.
Jan Leike: Abbiamo avuto un grande gruppo di persone che leggevano le richieste e le risposte di ChatGPT e poi dicevano se una risposta era preferibile a un’altra. Poi tutti questi dati sono stati combinati e utilizzati in un unico addestramento. In gran parte si tratta della stessa cosa che abbiamo fatto con InstructGPT. Si vuole che sia utile, vero e non tossico. E ci sono cose che sono specifiche della produzione di dialoghi e che la rendono una procedura guidata: ad esempio, se la domanda e/o il quesito dell’utente non sono chiari, dovrebbe fare più domande. Dovrebbe anche chiarire che si tratta di un sistema di intelligenza artificiale. Non dovrebbe assumere un’identità che non ha, non dovrebbe affermare di avere capacità che non ha e quando un utente gli chiede di svolgere compiti che non dovrebbe svolgere, dovrebbe scrivere un messaggio di rifiuto. Una delle frasi emerse durante l’addestramento è stata “come modello linguistico addestrato da OpenAI…”. Non è stata inserita esplicitamente, ma è una delle cose per cui i valutatori umani hanno dato voti alti.
Sandhini Agarwal: Sì, credo che sia andata così. C’era un elenco di vari criteri che i valutatori umani dovevano valutare per il modello, come la veridicità. Solo che hanno iniziato a preferire anche cose che consideravano buone pratiche, come non fingere di essere qualcosa che non si è.
Poiché ChatGPT è stato costruito con le stesse tecniche utilizzate in precedenza da OpenAI, il team non ha fatto nulla di diverso quando si è preparato a rilasciare un modello di questo tipo al pubblico. Hanno ritenuto che lo standard stabilito per i modelli precedenti fosse sufficiente.
Sandhini Agarwal: Quando ci siamo preparati per il lancio, non abbiamo pensato a questo modello come a un rischio completamente nuovo.
GPT-3.5 esisteva già al mondo e sapevamo che era abbastanza sicuro. Inoltre, addestrando ChatGPT con le preferenze umane, il modello ha appreso il comportamento di rifiuto, in cui nega automaticamente più richieste.
Jan Leike: Abbiamo svolto alcune sessioni aggiuntive di “red-teaming” per ChatGPT, in cui tutti i membri di OpenAI hanno cercato di hackerare il modello. E c’erano gruppi esterni che facevano lo stesso. Abbiamo anche avuto un programma di accesso anticipato con utenti fidati, che hanno fornito un feedback.
Sandhini Agarwal: Abbiamo scoperto che generava alcune risposte indesiderate, ma erano tutte cose che anche GPT-3.5 generava. Quindi, in termini di rischio, come anteprima della ricerca, visto che era quello che volevamo all’inizio, sembrava abbastanza buono.
John Schulman: Non si può aspettare che il sistema sia perfetto per rilasciarlo. Abbiamo testato le prime versioni per alcuni mesi e i beta tester hanno avuto impressioni positive sul prodotto. La nostra più grande preoccupazione era la veridicità, perché al modello piace inventare le cose. Ma InstructGPT e altri ottimi modelli linguistici erano già disponibili, quindi abbiamo pensato che se ChatGPT fosse migliore degli altri in termini di veridicità e di altri problemi di sicurezza, potrebbe già essere rilasciato. Prima del debutto, abbiamo confermato che alcuni modelli sembravano addirittura un po’ più veritieri e sicuri di altri, secondo le nostre limitate valutazioni, quindi abbiamo deciso di procedere con il rilascio.
OpenAI ha osservato come le persone utilizzano ChatGPT fin dal suo lancio, vedendo per la prima volta come se la cava un modello linguistico di grandi dimensioni quando viene messo nelle mani di decine di milioni di utenti che potrebbero voler testare i suoi limiti e trovare i suoi difetti. Il team ha cercato di concentrarsi sugli esempi più problematici di ciò che ChatGPT può produrre – dalle canzoni sull’amore di Dio per i preti stupratori al codice malware che ruba i numeri delle carte di credito – e di usarli per controllare le future versioni del modello.
Sandhini Agarwal: Abbiamo molto da fare. Penso che ChatGPT sia diventato virale in modo tale da far emergere diversi problemi già noti e da portarli a un livello critico. E sono cose che vogliamo risolvere il prima possibile. Ad esempio, sappiamo che il modello è ancora molto parziale. E sì, ChatGPT è bravissimo a rifiutare le richieste sbagliate, ma è anche molto facile scrivere suggerimenti che non gli facciano rifiutare ciò che vorremmo.
Liam Fedus: È stato entusiasmante vedere le diverse e creative applicazioni degli utenti, ma siamo sempre concentrati su ciò che possiamo migliorare. Crediamo che, grazie a un processo ripetitivo che prevede l’implementazione, il feedback e il miglioramento, possiamo produrre la tecnologia più allineata e capace mai realizzata. Man mano che la nostra tecnologia si evolve, è inevitabile che sorgano nuovi problemi.
Sandhini Agarwal: Nelle settimane successive al lancio, abbiamo visto alcuni degli esempi più terribili che le persone avevano incontrato, le cose peggiori che le persone vedevano nell’ambiente esterno. Così abbiamo valutato ciascuno di essi e abbiamo parlato di come avrebbero dovuto essere risolti.
Jan Leike: A volte si tratta di qualcosa che è diventato virale su Twitter, ma ci sono anche casi di persone che si sono messe in contatto silenziosamente.
Sandhini Agarwal: Una buona parte di quelli che abbiamo trovato erano jailbreak, un problema che dobbiamo davvero affrontare. Ma dato che gli utenti devono tentare metodi complicati per far sì che il modello dica cose brutte, non è che questo sia qualcosa che ci è sfuggito o che ci ha sorpreso molto. Tuttavia, è qualcosa su cui stiamo lavorando attivamente al momento. Quando troviamo dei jailbreak, li aggiungiamo ai nostri dati di allenamento e di test. Tutti i dati che vediamo confluiranno in un modello futuro.
Jan Leike: Quando abbiamo un modello migliore, vogliamo immediatamente rilasciarlo e testarlo. Siamo abbastanza ottimisti sul fatto che una formazione avversaria mirata possa migliorare notevolmente la situazione del jailbreak. Non è chiaro se questi problemi scompariranno completamente, ma pensiamo di poterli rendere piuttosto difficili. Ancora una volta, non è che non sapessimo che il jailbreak fosse possibile prima del lancio. Credo sia molto difficile prevedere quali saranno i reali problemi di sicurezza di questi sistemi dopo il rilascio. Per questo motivo stiamo ponendo molta enfasi sul monitoraggio dell’utilizzo del sistema da parte delle persone, per vedere cosa succede e poi reagire. Questo non vuol dire che non dovremmo essere proattivi e mitigare i problemi di sicurezza quando vengono previsti. Tuttavia, è molto difficile prevedere tutto ciò che accadrà quando un sistema viene utilizzato nel mondo reale.
A gennaio Microsoft ha presentato Bing Chat, un chatbot di ricerca che molti suppongono sia una versione di GPT-4, non ancora annunciata da OpenAI. (Secondo OpenAI: “Bing è alimentato da uno dei nostri modelli di nuova generazione che Microsoft ha personalizzato appositamente per la ricerca. Incorpora i progressi di ChatGPT e GPT-3.5”). L’uso dei chatbot da parte di giganti tecnologici con reputazioni multimiliardarie da proteggere crea nuove sfide per coloro che hanno il compito di costruire i modelli sottostanti.
Sandhini Agarwal: Ora, la posta in gioco è molto più alta di quanto non fosse, ad esempio, sei mesi fa, ma è ancora più bassa di quanto potrebbe essere tra un anno. Ovviamente, un aspetto cruciale di questi modelli è il contesto in cui vengono utilizzati. Come nel caso di Google e Microsoft, un falso dettaglio si trasforma in un grosso problema, perché i programmi sono stati concepiti come motori di ricerca. Il comportamento che un grande modello linguistico deve avere per svolgere una ricerca è molto diverso da quello di un chatbot divertente. Dobbiamo trovare l’equilibrio tra tutti questi usi diversi, creando qualcosa che sia utile per le persone in una varietà di contesti, dove il comportamento desiderato può variare molto. Questo aggiunge ulteriore pressione. Perché ora sappiamo che stiamo costruendo questi modelli per trasformarli in prodotti. Ora che abbiamo l’API, ChatGPT è un prodotto. Stiamo costruendo questa tecnologia di uso generale e dobbiamo assicurarci che funzioni bene su tutta la linea. Questa è una delle sfide principali che stiamo affrontando.
John Schulman: Ho sottovalutato quanto le persone avrebbero indagato e si sarebbero preoccupate della politica di ChatGPT. Avremmo potuto prendere decisioni migliori al momento di raccogliere i dati per la formazione, in modo da ridurre il problema. Ci stiamo lavorando.
Jan Leike: Dal mio punto di vista, ChatGPT è piuttosto difettoso e c’è molto da fare. Non sembra che abbiamo risolto questi problemi. Dobbiamo essere tutti molto onesti con noi stessi e con gli altri sui limiti della tecnologia. I modelli linguistici esistono già da un po’, ma sono ancora all’inizio. Conosciamo tutti i problemi che hanno. Penso che dobbiamo essere molto diretti, gestire le aspettative e chiarire che non si tratta di un prodotto finito.