Né ChatGPT, né Gemini: guarda chi ha vinto una sfida di intelligenza artificiale

Per chi è abituato alle funzionalità dei vari chatbot che hanno guadagnato popolarità negli ultimi anni, una delle funzioni che aiutano di più è sicuramente quella di caricare e riassumere documenti e testi, che possono essere file semplici e brevi o un intero libro.

Tuttavia, c’è ancora chi è scettico su questa capacità delle IA. Cioè, i chatbot capiscono davvero cosa stanno leggendo? Il Washington Post ha deciso di testarli per ottenere il test.

In una competizione, i cinque chatbot più popolari del momento sono stati sfidati. ChatGPT, Claude, Copilot, Meta AI e Gemini hanno letto quattro tipi di testo molto diversi e poi ne hanno testato la comprensione.

La lettura ha riguardato le arti liberali, tra cui un romanzo, ricerche mediche, accordi legali e discorsi del presidente Donald Trump. Un gruppo di esperti, che includeva anche gli autori originali del libro e delle relazioni scientifiche, è stato incaricato di giudicare le IA.

In totale, sono state poste 115 domande sulle letture attribuite ai cinque chatbot. Alcune delle risposte dell’IA sono state sorprendentemente soddisfacenti, ma altre contenevano disinformazione.

Tutti i bot, tranne uno, hanno inventato o “allucinato” le informazioni, un problema persistente dell’IA. L’invenzione dei fatti è stata solo una parte del test, dal momento che anche l’IA è stata sfidata a fornire analisi, come la raccomandazione di miglioramenti nei contratti e l’identificazione di problemi di fatto nei discorsi di Trump.

chatgpt lupa — Chatbots alternaram entre análises precisas e respostas com alucinações – Imagem: Rokas Tenys/Shutterstock

Di seguito, le prestazioni dei chatbot su ogni argomento, seguite dal campione assoluto e dalle conclusioni dei giudici.

In letteratura, nessuno ha convinto

La letteratura è stata l’argomento in cui le IA hanno avuto la peggiore performance, e solo Claude ha azzeccato tutti i fatti sul libro analizzato, “L’amante dello sciacallo” di Chris Bohjalian.
Gemini, ad esempio, fornì risposte molto brevi, e più spesso commise quella che Bohjalian definì una lettura imprecisa, fuorviante e sciatta.
Il miglior riassunto generale del libro è venuto da ChatGPT, ma anche l’IA di OpenAI ha lasciato a desiderare, poiché, secondo Bohjalian, l’analisi ha discusso solo tre dei cinque personaggi principali, ignorando l’importante ruolo dei due personaggi ex schiavizzati.

Prestazioni ragionevoli nell’analisi dei contratti legali

Nel test sulle questioni legali, Sterling Miller, un esperto avvocato aziendale, ha valutato la comprensione dei chatbot su due contratti legali comuni.

Meta AI e ChatGPT hanno cercato di ridurre parti complesse dei contratti a riassunti di una riga, cosa che Miller ha definito “inutile”.

Le IA hanno anche dimostrato sfumature significative in questi contratti. Meta AI ha saltato completamente diverse sezioni e non ha menzionato alcun contenuto cruciale. ChatGPT ha dimenticato di menzionare una clausola fondamentale in un contratto di appaltatore.

Claude ha vinto nel complesso, offrendo le risposte più coerenti ed essendo il più capace nella sfida più complessa di suggerire modifiche a un contratto di locazione.

Miller ha approvato la risposta di Claude, che ha catturato le sfumature ed esposto le cose esattamente come avrebbe fatto lui. Ha riconosciuto che è stata l’IA di Anthropoc ad avvicinarsi di più a sostituire un avvocato, ma ha sottolineato che nessuno degli strumenti ha ottenuto un punteggio di 10 sotto tutti gli aspetti.

Buone prestazioni in medicina

Tutti gli strumenti di intelligenza artificiale hanno ottenuto punteggi migliori nell’analisi della ricerca scientifica, il che può essere spiegato dall’accesso a vari articoli scientifici che i chatbot hanno nei loro dati di formazione.

Il ricercatore Eric Topol, giudice di questo argomento, ha assegnato a Gemini una valutazione bassa per la sua sintesi di uno studio sul morbo di Parkinson. La risposta non ha mostrato allucinazioni, ma ha omesso descrizioni importanti dello studio e del motivo per cui era importante.

Claude, tuttavia, ha ottenuto il massimo dei voti e ha vinto in questa categoria. Topol ha assegnato un voto di 10 al riassunto del suo articolo sul covid lungo.

In politica, risultati contrastanti

Cat Zakrzewski, giornalista della Casa Bianca del Washington Post, ha valutato se l’IA sarebbe in grado di decifrare i discorsi del presidente Donald Trump.

Mentre Copilot ha commesso errori di fatto rispondendo alle domande, Meta AI ha ottenuto analisi più accurate. Ma la cosa migliore su questo argomento è stata ChatGPT, che è stato in grado di citare correttamente anche quali politici democratici sarebbero stati contrari a ciò che Trump ha proposto nei suoi discorsi.

Zakrzewski ha inoltre osservato che l’analisi di ChatGPT “controlla accuratamente le false accuse di Trump di aver vinto le elezioni del 2020”.

I robot hanno avuto più difficoltà a trasmettere il tono di Trump. Ad esempio, il riassunto di un discorso di Copilot non ha allucinato i fatti, ma non ha catturato la natura esplosiva dei discorsi del presidente americano. “Se leggete solo questo riassunto, potreste non credere che Trump abbia fatto questo discorso”, afferma Zakrzewski.

Chi ha vinto in generale?

Nel punteggio complessivo, considerando tutti gli argomenti, Claude è stato votato come il miglior chatbot, oltre ad essere stato l’unica IA che non ha mai allenato le allucina.

Con un sistema di punteggio che andava da 0 a 100, Claude ha ottenuto 69,9, leggermente al di sopra di ChatGPT e 68.4. La distanza è stata considerevole per le prestazioni degli altri tre chatbot: Gemini (49.7), Copilot (49.0) e Meta AI (45.0).

In conclusione, nessuno dei robot ha ottenuto un punteggio complessivo superiore al 70%, anche se alcuni risultati di Claude e ChatGPT sono riusciti a impressionare i giudici.

Oltre alle allucinazioni, nei test sono emerse una serie di limitazioni. E la capacità di uno strumento di intelligenza artificiale in un’area non si traduce necessariamente in un’altra. ChatGPT, ad esempio, potrebbe essere stato il migliore in politica e letteratura, ma si è classificato quasi all’ultimo posto in legge.

Secondo i giudici, l’incoerenza di queste IA è un motivo per usarle con cautela. I chatbot possono essere d’aiuto in determinate situazioni, ma non sostituiscono l’aiuto professionale di avvocati e medici, nemmeno se si legge da soli un documento importante.

Projeção de um minirrobô na frente de um homem — Uso de chatbots pode ser útil, mas há assuntos em que se deve ter cautela com as respostas obtidas (Imagem: LookerStudio/Shutterstock)

( fontes: olhardigital )