Il nuovo Project Astra di Google potrebbe essere la grande risorsa dell’intelligenza artificiale generativaii

Google DeepMind ha annunciato un’impressionante suite di nuovi prodotti e prototipi che potrebbero aiutarla a riconquistare la leadership nella corsa per trasformare l’intelligenza artificiale generativa in una soluzione di massa.

Il grande pezzo forte è Gemini 2.0 – l’ultima versione della famiglia di modelli linguistici multimodali di Google DeepMind, ora riprogettata con particolare attenzione alla capacità di controllare gli agenti – e una nuova versione di Project Astra, l’app sperimentale “tutto in uno” che l’azienda presentato all’evento Google I/O di maggio.

MIT Technology Review ha avuto l’opportunità di testare Astra in una demo chiusa. L’esperienza è stata impressionante, ma c’è una differenza significativa tra un video promozionale raffinato e una demo dal vivo.

Astra utilizza il framework dell’agente integrato in Gemini 2.0 per rispondere a domande ed eseguire attività tramite testo, parlato, immagini e video, collegandosi alle app Google come Ricerca, Maps e Lens quando necessario. “Stiamo combinando alcuni dei più potenti sistemi di recupero delle informazioni del nostro tempo”, afferma Bibo Xu, product manager di Astra.

Gemini 2.0 e Astra sono accompagnati da Mariner, un nuovo agente che può navigare sul web per te; Jules, un assistente di programmazione fornito da Gemini; e Gemini for Games, un assistente sperimentale che può offrire suggerimenti mentre giochi ai videogiochi.

(E vale la pena ricordare che Google DeepMind ha anche annunciato Veo, un modello di generazione di video; Imagen 3, la nuova versione del suo modello di generazione di immagini; e Willow, un nuovo tipo di chip per computer quantistici. Uff! Nel frattempo, il CEO Demis Hassabis era in La Svezia ha accettato ieri il suo Premio Nobel.)

Google DeepMind afferma che Gemini 2.0 è due volte più veloce della versione precedente, Gemini 1.5, e supera il suo predecessore su diversi benchmark standard, tra cui MMLU-Pro, un ampio set di domande a scelta multipla utilizzato per testare le abilità di grandi modelli linguistici in diversi aree, dalla matematica e fisica alla salute, psicologia e filosofia.

Tuttavia, le differenze tra i modelli leader come Gemini 2.0 e quelli sviluppati da laboratori concorrenti come OpenAI e Anthropic sono ormai molto piccole. Attualmente, i progressi nei modelli linguistici non riguardano tanto la qualità in sé, ma ciò che è possibile farne.

Ed è qui che entrano in gioco gli agenti.

Esperienza pratica con il progetto Astra

Sono stato condotto attraverso una porta poco appariscente al piano superiore di un edificio nel quartiere londinese di King’s Cross, in una stanza che emanava forti vibrazioni di “progetto segreto”. Su una delle pareti era stampata a caratteri giganti la parola “ASTRA”. Il cane di Xu, Charlie, la mascotte non ufficiale del progetto, camminava tra i tavoli dove ricercatori e ingegneri stavano lavorando alla costruzione del prodotto su cui Google scommette sul suo futuro.

“Il modo in cui lo spiego a mia madre è che stiamo creando un’intelligenza artificiale con occhi, orecchie e voce. Può essere con te ovunque e aiutarti in qualsiasi cosa tu stia facendo”, afferma Greg Wayne, uno dei team leader di Astra. “Non siamo ancora arrivati ​​a quel punto, ma questa è la visione”.

Il termine ufficiale per ciò che Xu, Wayne e i loro colleghi stanno sviluppando è “assistente universale”. Stanno ancora definendo esattamente cosa significhi.

All’estremità della sala Astra c’erano due scenari utilizzati per le dimostrazioni: un drink bar e una galleria d’arte simulata. Xu mi ha portato prima al bar. “Molto tempo fa, abbiamo assunto un esperto di cocktail per insegnarci come preparare le bevande”, ha affermato Praveen Srinivasan, un altro leader del progetto. “Registriamo queste conversazioni e le usiamo per addestrare il nostro modello iniziale.”

Xu aprì un libro di cucina su una pagina con una ricetta per il pollo al curry, le puntò il cellulare e attivò Astra.

“Ni hao, Bibo!” disse una voce femminile.

“OH! Perché mi parli in mandarino?” chiese Xu al cellulare. “Puoi parlarmi in inglese, per favore?”

«Le mie scuse, Bibo. Stavo seguendo una precedente istruzione per parlare in mandarino. Ora parlerò in inglese come richiesto”.

Astra ricorda le conversazioni passate, ha spiegato Xu. Mantiene in memoria anche gli ultimi 10 minuti di video. (Nel video promozionale diffuso da Google a maggio, c’è un momento suggestivo in cui Astra racconta alla persona dove aveva lasciato gli occhiali, dopo averli visti su un tavolo pochi secondi prima. Ma non ho visto niente del genere durante la demo live )

Torniamo al libro di cucina. Spostando la fotocamera del suo telefono sulla pagina per alcuni secondi, Xu ha chiesto ad Astra di leggere la ricetta e di dirgli quali spezie erano sulla lista.

“Ricordo che la ricetta menziona un cucchiaino di pepe nero in grani, un cucchiaino di peperoncino in polvere e una stecca di cannella”, ha risposto. “Penso che tu stia dimenticando alcune cose”, ha detto Xu. “Dai un’altra occhiata.” “Hai ragione, mi scuso. Tra gli ingredienti vedo anche curcuma in polvere e foglie di curry”.

Osservando questa tecnologia in azione, due cose diventano subito chiare. Innanzitutto, presenta ancora dei difetti e deve essere corretto. In secondo luogo, questi difetti possono essere facilmente risolti con poche parole. Basta fermare la voce, ripetere le istruzioni e andare avanti. Sembra più di guidare un bambino che di avere a che fare con un software rotto.

Successivamente, Xu ha puntato il cellulare verso una fila di bottiglie di vino e ha chiesto ad Astra di sceglierne una che si abbinasse bene al pollo al curry. Ha suggerito una rioja e ha spiegato perché. Xu ha chiesto quanto costa la bottiglia. Astra ha risposto che avrebbe dovuto utilizzare la ricerca per controllare i prezzi online. Pochi secondi dopo, tornò con la risposta.

Ci siamo spostati nella galleria d’arte, dove Xu ha mostrato ad Astra una serie di tele con dipinti famosi: la Gioconda, L’urlo di Munch, un Vermeer, un Seurat, tra gli altri.

“Ni hao, Bibo!” disse ancora la voce.

“Mi stai parlando di nuovo in mandarino”, ha detto Xu. “Parlami in inglese, per favore.”

“Mi scuso, mi sembra di aver frainteso. Sì, risponderò in inglese.” (Avrei dovuto saperlo meglio, ma giuro che ho sentito un leggero tono ironico.)

Era il mio turno. Xu mi ha dato il suo cellulare.

Ho provato a mettere Astra in una situazione difficile, ma non si è mosso. Ho chiesto in quale famosa galleria d’arte fossimo, ma si è rifiutato di azzardare un’ipotesi. Gli ho chiesto perché avesse identificato i dipinti come repliche e lui ha iniziato a scusarsi per l’errore (Astra si scusa molto). Sono stato costretto a interromperlo: “No, no, hai ragione, non è un errore. Hai ragione nell’identificare i dipinti su tela come falsi. Non ho potuto fare a meno di sentirmi un po’ male: avevo incasinato un’app che esiste solo per compiacere.

Quando funziona bene, l’Astra è affascinante. L’esperienza di avviare una conversazione con il telefono su qualunque cosa tu stia indicando sembra nuova e fluida. In una conferenza stampa tenutasi ieri, Google DeepMind ha mostrato un video che mostra altri usi di Astra: leggere un’e-mail sullo schermo del telefono per trovare un codice di accesso (e ricordarlo in seguito), puntare il telefono verso un autobus in movimento e chiedere dove sta andando o fai domande su un’opera d’arte pubblica mentre le passi accanto. Questa potrebbe diventare la grande killer app dell’intelligenza artificiale generativa.

Tuttavia, c’è ancora molta strada da fare prima che la maggior parte delle persone abbia accesso a una tecnologia come questa. Non si fa menzione di una data di rilascio. Google DeepMind ha anche condiviso video di Astra mentre lavora su un paio di occhiali intelligenti, ma quella tecnologia è ancora più in basso nell’elenco delle priorità dell’azienda.

Mescolare i pezzi

Per ora, i ricercatori esterni a Google DeepMind stanno osservando da vicino i progressi di Astra. “Il modo in cui le cose stanno andando insieme è impressionante”, afferma Maria Liakata, esperta di grandi modelli linguistici presso la Queen Mary University di Londra e l’Alan Turing Institute. “È difficile ragionare solo con il linguaggio, ma qui è necessario integrare immagini e altri elementi. Questo non è banale.”

Liakata è rimasta colpita anche dalla capacità di Astra di ricordare le cose che ha visto o sentito. Lavora con quello che lei chiama contesto a lungo termine, sviluppando modelli per tenere traccia delle informazioni con cui sono entrati in contatto in precedenza. “Questo è emozionante”, dice Liakata. “Anche il fatto di poterlo fare in un’unica modalità è già impressionante.”

Tuttavia, ammette che gran parte della sua analisi implica supposizioni. “Il ragionamento multimodale è estremamente avanzato”, afferma. “Ma è molto difficile sapere esattamente dove si trovano, perché non hanno detto molto sulla tecnologia in sé.”

Per Bodhisattwa Majumder, ricercatore che lavora su modelli e agenti multimodali presso l’Allen Institute for AI, questa è una preoccupazione centrale. “Non sappiamo assolutamente come Google stia facendo tutto questo”, dice.

Majumder sottolinea che se Google fosse un po’ più trasparente su ciò che sta costruendo, aiuterebbe i consumatori a comprendere i limiti della tecnologia su cui potrebbero presto mettere le mani. “Le persone devono sapere come funzionano questi sistemi”, afferma. “È importante che l’utente possa vedere ciò che il sistema ha imparato su di lui, correggere gli errori o rimuovere le informazioni che desidera mantenere private.”

Liakata si preoccupa anche delle implicazioni sulla privacy, sottolineando che le persone potrebbero essere monitorate senza il loro consenso. “Ci sono cose che mi entusiasmano e cose che mi preoccupano”, dice. “C’è qualcosa di inquietante nel fatto che il tuo telefono diventi i tuoi occhi.”

“L’impatto che questi prodotti avranno sulla società è così grande che questo aspetto dovrebbe essere preso più sul serio”, continua. “Ma questa è diventata una gara tra aziende. Ciò è problematico, soprattutto perché non abbiamo un accordo su come valutare questa tecnologia”.

Google DeepMind afferma di analizzare attentamente i problemi di privacy, sicurezza e protezione in tutti i suoi nuovi prodotti. La tua tecnologia verrà testata da team di utenti fidati per mesi prima di essere rilasciata al pubblico. “Ovviamente bisogna pensare agli abusi. Dobbiamo pensare a cosa succede quando qualcosa va storto”, afferma Dawn Bloxwich, direttrice dello sviluppo responsabile e dell’innovazione dell’azienda. “C’è un potenziale enorme. I guadagni di produttività sono enormi. Ma ci sono anche dei rischi”.

Nessun team di test può prevedere tutti i modi in cui le persone utilizzeranno o abuseranno di una nuova tecnologia. Allora qual è il piano per quando accadrà l’inevitabile? Le aziende devono progettare prodotti che possano essere ritirati dal servizio o ritirati rapidamente se necessario, afferma Bloxwich: “Se dobbiamo apportare modifiche rapide o togliere qualcosa dalla circolazione, possiamo farlo”.

( fonte: MIT Technology Review)