A chegada da inteligência artificial generativa (IA) aos hábitos diários de milhões de pessoas tem levantado diversas questões relacionadas à confiabilidade dos conteúdos produzidos por essa tecnologia em termos de veracidade. O episódio mais recente dessa polêmica surgiu nos últimos dias, quando foi descoberto que as AI Overviews do Google, ou textos gerados pela IA Gemini, que o mecanismo oferece há algumas semanas em resposta às buscas dos usuários, fornecem resultados aleatórios em alguns casos.
Foi demonstrado como, quando questionada sobre o “significado” de expressões idiomáticas inexistentes ou completamente inventadas, a IA de Mountain View fornece explicações detalhadas e fundamentadas, como se essas expressões realmente existissem. No entanto, o Google Overview já havia sido manchete nesse sentido, devido a respostas não confiáveis e potencialmente perigosas à saúde.
No geral, avaliar a confiabilidade das respostas generativas da IA é complexo, porque esses fatores são altamente dependentes do contexto e não são fáceis de expressar em termos absolutos. De acordo com o Massive Multitask Language Understanding (MMLU), um dos benchmarks para analisar a confiabilidade da IA generativa, por exemplo, o ChatGPT-4o (modelo mais recente da OpenAI) atingiria uma taxa de precisão de 88,7%. No entanto, esses dados vêm de métodos de análise que os especialistas em IA tendem a considerar pouco confiáveis, pouco representativos e muito genéricos, mas que as empresas de IA, por outro lado, apreciam muito.
No entanto, as pesquisas disponíveis até agora em áreas específicas têm dado resultados bastante indicativos. As IAs generativas do Google não são as únicas com problemas de veracidade. O ChatGPT, de fato, registrou resultados não confiáveis em respostas a consultas sobre vários tópicos. Em um caso em novembro passado, uma pessoa na Noruega foi falsamente acusada pelo chatbot de ter antecedentes criminais por assassinato. O caso também se tornou uma controvérsia jurídica. Na área da saúde, as respostas do ChatGPT parecem não ser confiáveis. Quando se trata de notícias, o Tow Center for Digital Journalism da Universidade de Columbia descobriu que os maiores aplicativos de IA generativa não são muito bons em encontrar e citar notícias. O mesmo se aplicaria às informações de natureza jurídica. Até mesmo a IA da Meta, recentemente incluída em alguns de seus produtos, parece ter dificuldades com a realidade.
“Alucinações” de IA
O termo “alucinações” tem sido frequentemente usado para definir esse tipo de resposta problemática, como se indicasse um delírio da máquina. O conceito de “alucinação”, no entanto, é particularmente controverso e tem sido criticado por vários especialistas por suas conotações médicas — inaplicáveis a uma máquina — e porque a palavra pressupõe a existência de um estado de consciência e conhecimento do qual a IA pode, erroneamente, se desviar. As IAs generativas, no entanto, não são conscientes nem conseguem saber o que estão dizendo: consequentemente, elas não conseguem nem ter alucinações.
O problema da confiabilidade dessas ferramentas é, na verdade, em grande parte, um problema de quanta expectativa colocamos nelas. Algumas respostas a essas perguntas podem ser encontradas diretamente no site da OpenAI, onde a empresa descreve os recursos de sua IA. Aqui lemos, por exemplo, como “os resultados podem ser imprecisos, falsos ou enganosos em alguns casos”; “pode ocasionalmente fornecer respostas incorretas” e outros avisos semelhantes. A IA generativa, de fato, representa uma evolução do aprendizado de máquina, pois enriquece modelos com a capacidade de gerar novos conteúdos, como textos ou imagens, a partir dos dados com os quais foram treinados. Esses modelos não têm uma compreensão real e são incapazes de discernir entre realidade e invenção, nem entre o que é correto e o que não é.
A IA generativa é muito útil e benéfica e frequentemente fornece resultados e respostas surpreendentes que são muito próximos da linguagem e do raciocínio humanos, mas baseados na execução de cálculos probabilísticos e estatísticos, não em uma compreensão real das questões a ela submetidas. Apesar das impressionantes melhorias técnicas e avanços nos modelos subjacentes a essas IAs, as IAs generativas são baseadas em um princípio simples: “prever” a melhor resposta estatística, não a verdade.
*Philip Di Salvo é pesquisador sênior e professor na Universidade de St. Gallen. Seus principais temas de pesquisa são a relação entre informação e hacking, vigilância da Internet e inteligência artificial. Como jornalista, ele escreve para vários jornais.
( fontes: RSI )
