Novo modelo híbrido de IA da Anthropic pode trabalhar em tarefas de forma autônoma por horas seguidas

A Anthropic anunciou dois novos modelos de IA que afirma representarem um grande passo em direção a tornar os agentes de IA realmente úteis.

Os agentes de IA treinados no Claude Opus 4, a versão mais poderosa da empresa até hoje, elevam o padrão do que esses sistemas são capazes de fazer, enfrentando tarefas difíceis por períodos prolongados e respondendo de forma mais útil às instruções dos usuários, segundo a empresa.

O Claude Opus 4 foi projetado para executar tarefas complexas que envolvem a realização de milhares de etapas ao longo de várias horas. Por exemplo, ele criou um guia para o jogo de vídeo Pokémon Red enquanto jogava por mais de 24 horas seguidas. O sistema mais poderoso da empresa anteriormente, o Claude 3.7 Sonnet, conseguia jogar por apenas 45 minutos, diz Dianne Penn, líder de produto de pesquisa na Anthropic.

De forma similar, a empresa diz que um de seus clientes, a japonesa de tecnologia Rakuten, recentemente utilizou o Claude Opus 4 para codificar de forma autônoma por quase sete horas em um complicado projeto de código aberto.

A Anthropic alcançou esses avanços melhorando a capacidade do modelo de criar e manter “arquivos de memória” para armazenar informações chave. Essa habilidade aprimorada de “lembrar” torna a versão melhor em completar tarefas mais longas.

“Consideramos essa nova geração de modelos um salto de paradigma: de assistentes para agentes autônomos de verdade”, diz Penn. “Enquanto você ainda precisa dar muito feedback em tempo real e tomar todas as decisões chave para assistentes de IA, um agente pode tomar essas decisões chave sozinho. Isso permite que os humanos atuem mais como gestores ou juízes, em vez de ter que acompanhar esses sistemas em cada passo.”

Embora o Claude Opus 4 seja limitado aos clientes pagantes da Anthropic, um segundo modelo, o Claude Sonnet 4, estará disponível para usuários tanto das versões pagas quanto gratuitas. O Opus 4 está sendo comercializado como uma versão poderosa e grande para desafios complexos, enquanto o Sonnet 4 é descrito como uma plataforma inteligente e eficiente para uso diário.

Ambas as novas plataformas são híbridas, o que significa que podem oferecer uma resposta rápida ou uma resposta mais profunda e ponderada, dependendo da natureza da solicitação. Enquanto calculam uma resposta, ambos os sistemas podem realizar buscas online ou usar outras ferramentas para melhorar sua saída.

( fontes: MIT Technology Review)