Da quando l’agente generale dell’intelligenza artificiale Manus è stato rilasciato all’inizio di marzo, la sua diffusione su Internet è stata rapidissima. E non solo in Cina, dove è stato sviluppato dalla startup Butterfly Effect con sede a Wuhan. È entrato nel dibattito globale, con voci influenti nel mondo della tecnologia, tra cui il co-fondatore di Twitter Jack Dorsey e il responsabile del prodotto Hugging Face Victor Mustar, che hanno elogiato la sua performance. Alcuni lo hanno addirittura definito “il secondo DeepSeek”, paragonandolo al precedente modello di intelligenza artificiale che aveva sorpreso il settore sia per le sue capacità inaspettate sia per le sue origini.
Manus afferma di essere il primo agente di intelligenza artificiale generale al mondo, che utilizza più modelli di intelligenza artificiale (come Claude 3.5 Sonnet di Anthropic e versioni modificate di Qwen open source di Alibaba) e più agenti che operano in modo indipendente per agire in modo autonomo su un’ampia gamma di compiti. (Ciò lo differenzia dai chatbot AI come DeepSeek, che si basano su una singola famiglia di modelli linguistici e sono progettati principalmente per interazioni conversazionali.)
Nonostante tutto l’entusiasmo, sono poche le persone che hanno avuto la possibilità di utilizzarlo. Attualmente, meno dell’1% degli utenti in lista d’attesa ha ricevuto un codice di invito. (Non è chiaro quante persone ci siano in quella lista, ma per darvi un’idea dell’interesse, il canale Discord di Manus conta oltre 186.000 membri.)
Il MIT Technology Review ha avuto accesso a Manus e, testandolo, ho avuto la sensazione che utilizzarlo fosse come collaborare con uno stagista estremamente intelligente ed efficiente: anche se a volte non capisce cosa gli viene chiesto, fa supposizioni errate o prende scorciatoie per velocizzare i compiti, spiega chiaramente il suo ragionamento, è straordinariamente adattabile e può migliorare notevolmente quando gli vengono fornite istruzioni o feedback dettagliati. In breve, è promettente, ma non perfetto.
Come il precedente prodotto della casa madre, un assistente AI chiamato Monica, il cui lancio è previsto per il 2023, Manus è rivolto a un pubblico globale. L’inglese è impostato come lingua predefinita e il design è pulito e minimalista.
Per partecipare, l’utente deve immettere un codice di invito valido. Il sistema indirizza quindi gli utenti a una home page molto simile a quelle di ChatGPT o DeepSeek, con le sessioni precedenti visualizzate in una colonna a sinistra e la posta in arrivo della chat al centro. Nella homepage sono inoltre disponibili esempi di compiti curati dall’azienda, che spaziano dallo sviluppo di strategie aziendali all’apprendimento interattivo e a sessioni di meditazione audio personalizzate.
Come altri strumenti di intelligenza artificiale agentiva basati sul ragionamento, come ChatGPT DeepResearch, Manus è in grado di suddividere le attività in passaggi e di navigare autonomamente sul web per ottenere le informazioni necessarie a completarle. Ciò che lo distingue è la finestra denominata “Manus Computer”, che consente agli utenti non solo di osservare cosa sta facendo l’agente, ma anche di intervenire in qualsiasi momento.
Per testarlo, ho dato a Manus tre compiti: (1) compilare un elenco di giornalisti pertinenti che si occupano di tecnologia in Cina, (2) cercare immobili con due camere da letto a New York e (3) suggerire potenziali candidati per il premio Innovators Under 35 del MIT Technology Review.
Guarda come ha fatto:
Compito 1: Il primo elenco di giornalisti consegnato da Manus conteneva solo cinque nomi, con cinque “menzioni d’onore” sotto di essi. Ho notato che ha elencato i lavori degni di nota di alcuni giornalisti ma non di altri. Ho chiesto a Manus perché. La risposta è esilarantemente semplice: era pigro. “Ciò è avvenuto in parte a causa dei limiti di tempo, mentre cercavo di accelerare il processo di ricerca”, ha affermato l’agente. Quando ho chiesto coerenza e approfondimento, Manus ha risposto con un elenco completo di 30 giornalisti, indicando la loro testata giornalistica attuale e citando lavori pertinenti. (Sono stato felice di vedere il mio nome incluso, insieme a quello di molti stimati colleghi.)
Sono rimasto colpito dal fatto che potevo suggerire cambiamenti di alto livello, come se avessi avuto a che fare con un vero stagista o assistente, e lui rispondeva in modo appropriato. E nonostante inizialmente si sia lasciato sfuggire alcune modifiche apportate dai giornalisti al veicolo, quando ha chiesto una revisione dei risultati le ha prontamente corrette. Un’altra caratteristica utile: il risultato può essere scaricato in formato Word o Excel, rendendolo facile da modificare o condividere con altri.
Manus, tuttavia, ha avuto difficoltà ad accedere agli articoli giornalistici protetti da paywall; Mi sono imbattuto spesso nei captcha. Grazie alla possibilità di seguire ogni passaggio, sono riuscito a intervenire per risolvere questi ostacoli, anche se molti siti continuavano a bloccare lo strumento, segnalando attività sospette. Vedo un grande potenziale di miglioramento in questo caso e sarebbe utile se una futura versione di Manus potesse chiedere aiuto in modo proattivo quando si incontra questo tipo di restrizione.
Compito 2: Per la ricerca dell’appartamento, ho dato a Manus una serie complessa di criteri, tra cui il budget e diversi requisiti: una cucina spaziosa, uno spazio esterno, accesso a Manhattan e una stazione ferroviaria principale raggiungibile in sette minuti a piedi. Inizialmente Manus ha interpretato in modo troppo letterale requisiti vaghi come “una sorta di area esterna”, escludendo completamente le proprietà prive di terrazza privata o accesso al balcone. Tuttavia, dopo ulteriori indicazioni e chiarimenti, è stato in grado di compilare un elenco più ampio e utile, con raccomandazioni organizzate in categorie e tag.
Il risultato finale sembrava uscito da Wirecutter, con sottotitoli come “migliore opzione complessiva”, “miglior rapporto qualità-prezzo” e “opzione di lusso”. Questo compito (inclusi gli adattamenti) ha richiesto meno di mezz’ora, molto meno tempo rispetto al compito dei giornalisti (che ha richiesto poco più di un’ora), probabilmente perché gli annunci immobiliari sono più accessibili e ben strutturati su Internet.
Attività 3: Questa è stata la più completa: ho chiesto a Manus di nominare 50 persone per la lista annuale degli Innovatori Under 35. Redigere questa lista è un compito enorme e solitamente riceviamo centinaia di candidature ogni anno. Ero curioso di vedere come se la sarebbe cavata Manus. Ha suddiviso il compito in fasi, tra cui l’analisi degli elenchi precedenti per comprendere i criteri di selezione, la creazione di una strategia di ricerca per identificare i candidati, la compilazione dei nomi e la garanzia di una selezione diversificata di candidati da tutto il mondo.
Per Manus la parte che ha richiesto più tempo è stata l’elaborazione di una strategia di ricerca. Sebbene non abbia specificato nei dettagli il suo approccio, la finestra “Manus Computer” mostrava l’agente che navigava rapidamente sui siti web di prestigiose università di ricerca, annunci di premi tecnologici e articoli di giornale. Ancora una volta, ha incontrato ostacoli nel tentativo di accedere ad articoli e contenuti accademici protetti da paywall.
Dopo tre ore di ricerca su Internet, durante le quali Manus mi ha chiesto (giustamente) più volte se potevo restringere la ricerca, è riuscito a trovare solo tre candidati con profili completi. Quando l’ho incalzato di nuovo per avere un elenco completo di 50 nomi, alla fine ne ha prodotto uno, ma alcuni istituti e campi accademici erano sovrarappresentati, il che rifletteva un processo di ricerca incompleto. Dopo che gli ho fatto notare il problema e gli ho chiesto di trovare cinque candidati dalla Cina, è riuscito a compilare una solida lista di cinque nomi, anche se i risultati erano sbilanciati verso personaggi popolari dei media cinesi. Alla fine ho dovuto rinunciare perché il sistema mi ha avvisato che le prestazioni di Manus avrebbero potuto peggiorare se avessi continuato a inserire troppo testo.
La mia recensione: Nel complesso, ho trovato Manus uno strumento molto intuitivo, adatto a utenti con o senza esperienza di programmazione. In due delle tre attività ha ottenuto risultati migliori di ChatGPT DeepResearch, anche se ha impiegato molto più tempo per completarle. Manus sembra più adatto per attività analitiche che richiedono un’ampia ricerca nella rete Internet aperta, ma con portata limitata. In altre parole, funziona meglio per il genere di cose che un tirocinante qualificato potrebbe fare nel corso di una giornata lavorativa.
Tuttavia, non tutto procede liscio. Manus potrebbe subire frequenti arresti anomali e instabilità del sistema e potrebbe avere difficoltà a elaborare grandi volumi di testo. Il messaggio “A causa dell’elevato carico di lavoro, non è possibile creare attività. Riprovare tra qualche minuto” è apparso sullo schermo un paio di volte quando ho provato a inviare nuove richieste, e occasionalmente il computer di Manus si bloccava su una pagina specifica per un lungo periodo.
Ha un tasso di fallimento più elevato rispetto a ChatGPT DeepResearch, un problema che il team sta cercando di risolvere, secondo Peak Ji, capo scienziato di Manus. Detto questo, il media cinese 36Kr riporta che il costo per attività di Manus è di circa 2 dollari, ovvero appena un decimo del costo di DeepResearch. Se il team di Manus potenziasse la propria infrastruttura server, prevedo che lo strumento diventerebbe la scelta preferita dai singoli utenti, in particolar modo dai professionisti impiegatizi, dagli sviluppatori indipendenti e dai piccoli team.
Infine, trovo davvero prezioso il fatto che il processo di lavoro di Manus sembri relativamente trasparente e collaborativo. Pone domande in modo attivo durante il percorso e conserva le istruzioni chiave come “conoscenza” nella sua memoria per un utilizzo futuro, consentendo un’esperienza agente facilmente personalizzabile. È molto positivo anche il fatto che ogni sessione possa essere riprodotta e condivisa.
Spero di continuare a utilizzare Manus per un’ampia gamma di attività, sia nella mia vita personale che professionale. Anche se non sono sicuro che i paragoni con DeepSeek siano del tutto equi, essi costituiscono un’ulteriore prova del fatto che le aziende cinesi di intelligenza artificiale non stanno semplicemente seguendo le orme delle loro controparti occidentali. Invece di limitarsi a innovare partendo dai modelli di base, stanno attivamente plasmando l’adozione di agenti di intelligenza artificiale autonomi a modo loro.
( fontes: MIT Technology Review)
