L’intelligenza artificiale può imparare a dire “non lo so”, e questo sarebbe un grande passo avanti

In settori ad alto rischio, come la medicina, il diritto o l’ingegneria, o anche in situazioni quotidiane, è spesso più sicuro ammettere “non lo so” che dare una risposta sbagliata.

Tuttavia, molti modelli di intelligenza artificiale preferiscono ancora rischiare una risposta anche quando non hanno abbastanza fiducia.

Per affrontare questa sfida, gli informatici della Johns Hopkins University hanno sviluppato un nuovo metodo che consente ai modelli di intelligenza artificiale di dedicare più tempo alla riflessione e di utilizzare un punteggio di fiducia per decidere quando astenersi dal rispondere.

Novo sistema usa níveis de confiança e penalidades para ensinar modelos a recusar respostas perigosas em contextos sensíveis – Imagem: Suri Studio/Shutterstock

Come è stato fatto lo studio

La ricerca, pubblicata sul repository arXiv e presentata al 63ª incontro dell’Associazione di linguistica computazionale, mostra che le stringhe di ragionamento più lunghe aiutano i modelli a rispondere con maggiore precisione, ma solo fino a un certo punto.
Anche con tempi di elaborazione più lungati, gli errori si verificano comunque quando non sono previste sanzioni associate a risposte errate.
Il team ha testato diversi scenari di rischio: esami (senza penalità), con il gioco Jeopardy! (Ricompense e sanzioni equivalenti) e contesti critici (errori penalizzati più severamente).
Hanno scoperto che, in base a regole più severe, i modelli dovrebbero evitare di rispondere se non hanno abbastanza fiducia dopo aver elaborato il problema.

L’IA ammette di non sapere può evitare danni maggiori

Anche se questo può frustrare gli utenti nelle situazioni quotidiane, è essenziale in contesti in cui una risposta errata può avere gravi conseguenze.

Ora i ricercatori incoraggiano la comunità dell’IA ad adottare metriche che tengano conto del costo dell’errore, promuovendo lo sviluppo di modelli più sicuri, trasparenti e consapevoli dei loro limiti.

( fontes: olhar digital)