Il cane robot impara a camminare da solo

L’intelligenza artificiale può aiutare i robot ad apprendere nuove abilità e ad adattarsi rapidamente al mondo reale.

di MIT Technology Review

Il cane robot agita le gambe in aria come uno scarafaggio disperato. Dopo 10 minuti di sforzo, è in grado di rotolare in avanti. Mezz’ora dopo, il robot fa i primi passi goffi, come un vitello appena nato. Ma, dopo un’ora, il robot sta camminando per il laboratorio con sicurezza.

Ciò che rende speciale questo robot a quattro zampe è che ha imparato a fare tutto da solo, senza che gli venga mostrato cosa fare in una simulazione al computer.

Danijar Hafner e colleghi dell’Università della California, Berkeley (USA), hanno utilizzato una tecnica di intelligenza artificiale (AI) chiamata learning reinforcement, che allena gli algoritmi premiandoli per le azioni desiderate, per addestrare il robot a camminare da zero nel mondo reale. Il team ha utilizzato lo stesso algoritmo per addestrare con successo altri tre robot, come uno in grado di raccogliere palline e spostarle da un vassoio all’altro.

Tradizionalmente, i robot vengono addestrati in un simulatore di computer prima di provare a fare qualsiasi cosa nel mondo reale. Ad esempio, un paio di gambe di robot di nome Cassie hanno imparato a camminare usando il rinforzo dell’apprendimento, ma solo dopo aver testato l’idea in una simulazione.

Guarda il video qui: https://www.youtube.com/watch?v=xAXvfVTgqr0

“Il problema è che i simulatori non saranno mai accurati come il mondo reale. Ci saranno sempre aspetti del mondo che escludi”, afferma Hafner, che ha lavorato al progetto con i colleghi Alejandro Escontrela e Philipp Wu e ora è uno stagista presso DeepMind. L’adattamento delle lezioni del simulatore al mondo reale richiede anche un’ulteriore ingegneria, afferma.

L’algoritmo del team, chiamato Dreamer, utilizza l’esperienza passata per costruire un modello del mondo che lo circonda. Dreamer consente inoltre al robot di eseguire calcoli per tentativi ed errori in un programma per computer piuttosto che nel mondo reale, prevedendo possibili risultati futuri delle sue potenziali azioni. Questo gli permette di imparare più velocemente di quanto potrebbe semplicemente eseguendo l’azione. Dopo che il robot ha imparato a camminare, ha continuato ad adattarsi a situazioni impreviste, come resistere all’attacco con un bastone.

“Insegnare ai robot attraverso tentativi ed errori è un problema difficile, soprattutto visti i lunghi tempi di formazione richiesti da tale insegnamento”, afferma Lerrel Pinto, assistente professore di informatica alla New York University (USA), specializzato in robotica e apprendimento automatico. Dreamer mostra che il rinforzo del deep learning e i modelli del mondo sono in grado di insegnare ai robot nuove abilità in un periodo di tempo molto breve, dice.

Jonathan Hurst, professore di robotica presso la Oregon State University (USA), afferma che i risultati, che devono ancora essere sottoposti a revisione paritaria, chiariscono che “il learning reinforcement sarà uno strumento chiave nel futuro del controllo dei robot”.

Eliminare la necessità di utilizzare il simulatore per addestrare i robot ha molti vantaggi. L’algoritmo potrebbe essere utile per insegnare ai robot ad apprendere abilità nel mondo reale e adattarsi a situazioni come guasti hardware, afferma Hafner. Ad esempio, un robot può imparare a camminare con un motore difettoso in una gamba.

La tecnica potrebbe anche avere un enorme potenziale per cose più complicate come la guida autonoma, che richiede simulatori complessi e costosi, afferma Stefano Albrecht, assistente professore di intelligenza artificiale all’Università di Edimburgo, nel Regno Unito. Una nuova generazione di algoritmi di learning reinforcement potrebbe “catturare molto rapidamente come funziona l’ambiente nel mondo reale”, afferma Albrecht.

Ma ci sono dei grossi problemi irrisolti, dice Pinto.

Con il rinforzo dell’apprendimento, gli ingegneri devono specificare nel loro codice quali comportamenti sono buoni, e quindi premiati, e quali sono indesiderabili. In questo caso, girare e camminare va bene, mentre non camminare è male. “Un roboticista dovrà farlo per ogni compito [o] problema che desidera che il robot risolva”, afferma Pinto. Questo richiede molto tempo ed è difficile programmare comportamenti per situazioni impreviste.

Anche se i simulatori possono essere imprecisi, lo possono essere pure i modelli mondiali, afferma Albrecht. “I modelli mondiali partono da zero, quindi inizialmente le previsioni dei modelli saranno completamente disperse”, afferma. Ci vuole tempo prima che ottengano dati sufficienti per renderlo accurato.

In futuro, afferma Hafner, sarebbe bello insegnare al robot a comprendere i comandi vocali. Hafner afferma che il team vuole anche collegare le telecamere al cane robot in modo che possa vedere. Ciò gli consentirebbe di affrontare complesse situazioni interne come entrare in una stanza, trovare oggetti e – sì! – giocare a prendere oggetti.