O Google lançou em 6 de dezembro a primeira fase de seu modelo de IA de última geração, o Gemini. A ferramenta reflete anos de esforços dentro da empresa, supervisionados e conduzidos por seu CEO, Sundar Pichai.
Pichai, que anteriormente supervisionou o Chrome e o Android, é famoso por sua obsessão por produtos. Em sua primeira carta do fundadorcomo CEO, em 2016, ele previu que “passaremos de um mundo com celular em primeiro lugar para um mundo com IA em primeiro lugar”. Nos anos que se seguiram, Pichai incorporou profundamente a IA em todos os produtos do Google, desde os dispositivos Android até a nuvem.
Apesar disso, o último ano foi amplamente definido pelos lançamentos de Inteligência Artificial de outra empresa, a OpenAI. Os lançamentos do DALL-E e do GPT-3.5 no ano passado, seguidos pelo GPT-4 neste ano, dominaram o setor e deram início a uma corrida armamentista entre startups e gigantes da tecnologia.
O Gemini é agora o mais recente esforço nessa corrida. Esse sistema de última geração foi liderado pelo Google DeepMind, a organização recém-integrada liderada por Demis Hassabis que reúne as equipes de IA da empresa sob um único guarda-chuva. Você pode experimentar o Gemini no Bard hoje, e ele será integrado à linha de produtos da empresa ao longo de 2024.
Conversamos com Sundar Pichai nos escritórios do Google em Mountain View, Califórnia, na véspera do lançamento do Gemini, para discutir o que a ferramenta significará para o Google, seus produtos, a IA e a sociedade em geral.
A transcrição a seguir representa Pichai em suas próprias palavras. A conversa foi editada para maior clareza e legibilidade.
Por que o Gemini é empolgante? Você pode me dizer qual é o panorama geral que você vê em relação à IA, seu poder, sua utilidade e a direção que ela tomará em todos os seus produtos?
Sundar Pichai: Uma parte específica do que torna o Gemini empolgante é o fato de ser um modelo nativamente multimodal desde o início. Assim como os humanos, ele não está aprendendo apenas com texto. É texto, áudio, código… Portanto, o modelo é inatamente mais capaz por causa disso, e acho que nos ajudará a descobrir novos recursos e a contribuir para o progresso do campo. Isso é empolgante.
Também é empolgante porque o Gemini Ultra é o estado da arte em 30 dos 32 principais benchmarks, especialmente nos benchmarks multimodais. Esse benchmark MMMU mostra o progresso. Pessoalmente, considero empolgante o fato de que no MMLU [massive multi-task language understanding], que tem sido um dos principais benchmarks, ele ultrapassou o limite de 90%, o que é um grande marco. O estado da arte há dois anos era de 30% ou 40%. Portanto, basta pensar no quanto o campo está progredindo. Aproximadamente 89% é um especialista humano nesses 57 assuntos. Esse é o primeiro modelo a ultrapassar esse limite.
Também estou animado porque ele finalmente está chegando em nossos produtos. Ele estará disponível para os desenvolvedores. É uma plataforma. A IA é uma mudança profunda de plataforma, maior do que a Web ou o celular. Portanto, ela representa um grande passo para nós também nesse momento.
Vamos começar com esses benchmarks. Ele parecia estar à frente do GPT-4 em quase todos eles, ou na maioria deles, mas não muito. Já o GPT-4 pareceu ser um grande avanço. Estamos começando a atingir um patamar com o que veremos algumas dessas tecnologias de modelo de linguagem grande serem capazes de fazer ou você acha que continuaremos a ter essas grandes curvas de crescimento?
Em primeiro lugar, olhando para o futuro, vemos muito espaço livre. Alguns dos benchmarks já são altos. É preciso perceber que, quando se está tentando chegar a algo a partir de 85%, já se está no limite da curva. Portanto, pode não parecer muito, mas estamos progredindo. Também precisaremos de novos padrões de referência. Esse é um dos motivos pelos quais também analisamos o benchmark multimodal MMLU. [Para alguns desses novos benchmarks, o estado da arte ainda é muito inferior. Há muito progresso pela frente. As leis de escala ainda funcionarão. À medida que aumentarmos o tamanho dos modelos, haverá mais progresso. Quando vejo isso em sua totalidade, realmente sinto que estamos no início.
Estou interessado em saber quais você considera os principais avanços do Gemini e como eles serão aplicados.
É muito difícil para as pessoas imaginarem os saltos que acontecerão. Estamos fornecendo APIs, e as pessoas vão imaginar isso de maneiras bem profundas.
Acho que a multimodalidade será importante. À medida que ensinarmos esses modelos a raciocinar mais, haverá avanços cada vez maiores. Avanços mais profundos ainda estão por vir.
Uma maneira de pensar sobre essa questão é o Gemini Pro. Ele se sai muito bem nos benchmarks. Mas quando o colocamos no Bard, pude sentir isso como usuário. Nós o testamos, e as classificações de favorabilidade aumentaram significativamente em todas as categorias. É por isso que estamos chamando essa de uma de nossas maiores atualizações até o momento. E quando fazemos avaliações cegas lado a lado, isso realmente mostra o desempenho superior. Assim, você faz com que esses modelos melhores melhorem os benchmarks. Isso faz com que haja progresso. E continuaremos treinando e avançando a partir daí.
Mas mal posso esperar para colocá-lo em nossos produtos. Esses modelos são muito capazes. Na verdade, projetar as experiências do produto para aproveitar tudo o que os modelos têm – isso será empolgante nos próximos meses.
Imagino que tenha havido uma enorme pressão para que o Gemini fosse lançado. Estou curioso para saber o que você aprendeu ao ver o que aconteceu com o lançamento do GPT-4. O que você aprendeu? Que abordagens mudaram nesse período?
Uma coisa, pelo menos para mim: parece muito longe de ser um jogo de soma zero, certo? Pense em como é profunda a mudança para a IA e como ainda estamos no início. Há um mundo de oportunidades pela frente.
Mas, com relação à sua pergunta específica, é um campo rico no qual todos nós estamos progredindo. Há um componente científico, há um componente acadêmico, que é ser muito publicado, ver como modelos como o GPT-4 funcionam no mundo real. Aprendemos com isso. A segurança é uma área importante. Portanto, em parte com o Gemini, há técnicas de segurança que aprendemos e aprimoramos com base em como os modelos estão funcionando no mundo real. Isso mostra a importância de várias coisas, como o ajuste fino. Uma das coisas que mostramos com o Med-PaLM 2 foi pegar um modelo como o PaLM, ajustá-lo de fato a um domínio específico e mostrar que ele poderia superar os modelos mais avançados. E essa foi uma forma de aprendermos o poder do ajuste fino.
Muito disso é aplicado quando estamos trabalhando no Gemini. Parte do motivo pelo qual estamos levando mais tempo com o Ultra [a versão mais avançada do Gemini que estará disponível no próximo ano] é para garantir que estamos testando-o rigorosamente quanto à segurança. Mas também estamos fazendo um ajuste fino para realmente explorar os recursos.
Quando algumas dessas plataformas são lançadas e as pessoas começam a mexer com elas no mundo real, elas têm alucinações ou podem revelar alguns dos dados privados com os quais seus modelos são treinados. E eu me pergunto o quanto disso é inerente à tecnologia, considerando os dados nos quais ela é treinada, se isso é inevitável. Se for inevitável, que tipos de coisas vocês tentam fazer para limitar isso?
Você está certo. Todos esses são campos de pesquisa ativos. Na verdade, acabamos de publicar um artigo que mostra como esses modelos podem revelar dados de treinamento por meio de uma série de solicitações. A alucinação não é um problema resolvido. Acho que todos nós estamos progredindo nele, e há mais trabalho a ser feito. Há algumas limitações fundamentais que precisamos superar. Um exemplo é o Gemini Ultra, estamos ativamente fazendo o red-teaming desses modelos com terceiros externos que o utilizam e que são especialistas nessas coisas.
Em áreas como a multimodalidade, queremos ser ousados e responsáveis. Seremos mais cuidadosos com as implementações multimodais, porque as chances de casos de uso errados são maiores.
Mas você está certo no sentido de que essa ainda é uma tecnologia em desenvolvimento, e é por isso que ela não fará sentido para tudo. É por isso que, na pesquisa, estamos sendo mais cuidadosos com a forma como, quando, o quê e onde a usamos e quando a acionamos. Eles têm esses recursos incríveis e têm deficiências claros. Esse é o trabalho árduo que todos nós temos pela frente.
Você acha que, no final das contas, esse será um problema resolvido – alucinações ou com a revelação de outros dados de treinamento?
Com a tecnologia atual de LLMs auto-regressivos, as alucinações não são um problema resolvido. Mas os futuros sistemas de IA podem não se parecer com o que temos hoje. Essa é uma versão da tecnologia. É como quando as pessoas pensavam que não havia como colocar um computador no bolso. Há 20 anos, havia pessoas que tinham opiniões muito fortes. Da mesma forma, olhar para esses sistemas e dizer que não é possível projetar sistemas melhores. Eu não concordo com essa visão. Já existem muitas pesquisas em andamento para pensar em como resolver esses problemas de outra forma.
Você falou sobre como essa mudança é profunda. Em algumas dessas últimas mudanças, como para a telefonia móvel, não houve necessariamente um aumento da produtividade, que se manteve estável por muito tempo. Acho que há um argumento de que isso pode até ter piorado a desigualdade de renda. Que tipo de trabalho o Google está fazendo para tentar garantir que essa mudança seja mais amplamente benéfica para a sociedade?
Essa é uma pergunta muito importante. Eu penso nisso em alguns níveis. Uma coisa em que sempre nos concentramos no Google é: como podemos obter acesso à tecnologia da forma mais ampla possível? Portanto, eu diria que, mesmo no caso de dispositivos móveis, o trabalho que fazemos com o Android – centenas de milhões de pessoas não teriam acesso à computação de outra forma. Trabalhamos arduamente para chegar a um smartphone acessível, talvez abaixo de US$ 50.
Portanto, tornar a IA útil para todos é a estrutura em que penso. Você tenta promover o acesso ao maior número possível de pessoas. Acho que essa é uma parte da questão.
Estamos pensando profundamente em aplicá-la a casos de uso que possam beneficiar as pessoas. Por exemplo, o motivo pelo qual fizemos a previsão de enchentes logo no início foi porque percebemos que a IA pode detectar padrões e fazer isso bem. Estamos usando-a para traduzir 1.000 idiomas. Estamos literalmente tentando trazer conteúdo agora em idiomas aos quais, de outra forma, você não teria acesso.
Isso não resolve todos os problemas de que você está falando. Mas ser deliberado sobre quando e onde, em que tipo de problemas você vai se concentrar – sempre nos concentramos nisso. Veja áreas como a AlphaFold. Nós fornecemos um banco de dados aberto para vírus em todo o mundo. Mas… quem o utiliza primeiro? Onde ele é vendido? A IA não vai melhorar magicamente as coisas em algumas das questões mais difíceis, como a desigualdade; ela pode exacerbá-la.
Mas o importante é garantir que a tecnologia esteja disponível para todos. Você está desenvolvendo-a desde cedo, dando acesso às pessoas e conversando com elas para que a sociedade possa pensar sobre ela e se adaptar a ela.
Sem dúvida, nessa tecnologia, participamos mais cedo do que em outras tecnologias. Você sabe, o recente Fórum de Segurança de IA do Reino Unido ou o trabalho nos EUA com o Congresso e a administração. Estamos tentando fazer mais parcerias público-privadas, atraindo instituições acadêmicas e sem fins lucrativos mais cedo.
Os impactos em áreas como empregos precisam ser estudados profundamente, mas acho que haverá surpresas. Haverá externalidades positivas surpreendentes, mas também haverá externalidades negativas. A solução das externalidades negativas é maior do que qualquer empresa. É o papel de todas as partes interessadas da sociedade. Portanto, não tenho respostas fáceis para isso.
Posso lhe dar vários exemplos dos benefícios que a mobilidade traz. Acho que isso também será verdade. Já mostramos isso em áreas como a retinopatia diabética. Simplesmente não há médicos suficientes em muitas partes do mundo para detectá-la.
Assim como senti que dar às pessoas acesso à Pesquisa Google em qualquer lugar do mundo fez uma diferença positiva, acho que essa é a maneira de pensar sobre a expansão do acesso à IA.
Há coisas que claramente tornarão as pessoas mais produtivas. A programação é um ótimo exemplo disso. E, no entanto, a democratização dessa tecnologia é exatamente o que está ameaçando os empregos. E mesmo que você não tenha todas as respostas para a sociedade – e não cabe a uma empresa resolver os problemas da sociedade – uma empresa pode lançar um produto que pode mudar drasticamente o mundo e ter esse impacto profundo.
Nunca oferecemos APIs de reconhecimento facial. Mas as pessoas criaram APIs e a tecnologia avançou. Portanto, isso também não está nas mãos de uma única empresa. A tecnologia vai avançar.
Acho que a resposta é mais complexa do que isso. As sociedades também podem ser deixadas para trás. Se não adotarem essas tecnologias, isso poderá afetar sua competitividade econômica. Você pode perder mais empregos.
Acho que a resposta certa é implantar a tecnologia de forma responsável, progredir e pensar nas áreas em que ela pode causar danos desproporcionais e trabalhar para reduzi-los. Haverá novos tipos de empregos. Se você observar os últimos 50, 60 anos, há estudos de economistas da MIT que mostram que a maioria dos novos empregos criados está em novas áreas que surgiram desde então.
Serão criados novos empregos. Haverá empregos que se tornarão melhores, em que parte do trabalho repetitivo será liberado de modo que você possa se expressar de forma mais criativa. Você pode ser um médico, um radiologista ou um programador. A quantidade de tempo que você gasta em tarefas rotineiras versus pensamento de ordem superior – tudo isso pode mudar, tornando o trabalho mais significativo. E há empregos que podem ser deslocados. Então, como sociedade, como podemos retreinar, requalificar as pessoas e criar oportunidades?
O último ano realmente trouxe à tona essa divisão filosófica na forma como as pessoas acham que devemos abordar a IA. Você poderia falar sobre segurança em primeiro lugar ou casos de uso de negócios em primeiro lugar, ou “aceleracionistas” versus “condenadores”. Você está em uma posição em que precisa fazer a ponte entre todas essas filosofias e uni-las. Gostaria de saber o que você pensa pessoalmente sobre a tentativa de unir esses interesses no Google, que será um líder nesse campo, nesse novo mundo.
Sou um otimista em relação à tecnologia. Sempre senti, com base em minha vida pessoal, uma crença nas pessoas e na humanidade. De modo geral, acho que a humanidade aproveitará a tecnologia em seu benefício. Portanto, sempre fui um otimista. Você está certo: uma tecnologia poderosa como a IA – há uma dualidade nela.
Isso significa que haverá momentos em que avançaremos com ousadia, porque acho que podemos impulsionar o estado da arte. Por exemplo, se a IA puder nos ajudar a resolver problemas como o câncer ou a mudança climática, você vai querer fazer tudo o que estiver ao seu alcance para avançar rapidamente. Mas, definitivamente, você precisa que a sociedade desenvolva estruturas para se adaptar, seja para deepfakes ou para o deslocamento de empregos, etc. Essa será uma fronteira – não diferente da mudança climática. Essa será uma das maiores dificuldades que enfrentaremos na próxima década.
Outro aspecto importante e incerto é o cenário jurídico em torno da IA. Há dúvidas sobre o uso justo, dúvidas sobre a capacidade de proteger os resultados. E parece que isso será um grande problema para a propriedade intelectual. O que você diz às pessoas que estão usando seus produtos, para dar a elas uma sensação de segurança, de que o que estão fazendo não vai levá-las a um processo?
Nem todos esses tópicos têm respostas fáceis. Quando criamos produtos, como o Search, o YouTube e outros no mundo pré-AI, sempre tentamos acertar a troca de valores. No caso da IA, não é diferente. Estamos definitivamente concentrados em garantir que possamos treinar em dados que podem ser treinados, de acordo com a lei, dando às pessoas a chance de optar por não participar do treinamento. E há uma camada sobre isso – sobre o que é uso justo. É importante criar valor para os criadores do conteúdo original. Essas são áreas importantes. A internet foi um exemplo disso. Ou quando o e-commerce começou: como se traça a linha entre o e-commerce e o comércio normal?
Haverá novas estruturas legais desenvolvidas ao longo do tempo, acho que é assim que eu pensaria sobre isso à medida que essa área evolui. Mas, enquanto isso, trabalharemos duro para estar do lado certo da lei e garantir que também tenhamos relacionamentos profundos com muitos provedores de conteúdo atuais. Há algumas áreas em que isso é controverso, mas estamos trabalhando para resolver essas questões, e estou comprometido em trabalhar para resolver isso. Temos que criar esse ecossistema de ganho mútuo para que tudo isso funcione ao longo do tempo.
Algo com que as pessoas estão muito preocupadas na internet atualmente é o futuro do buscador. Quando você tem um tipo de tecnologia que apenas responde a perguntas para você, com base em informações de toda a web, há um receio de que as pessoas não precisem mais visitar esses sites. Isso também parece ter implicações para o Google. Também gostaria de saber se você está pensando nisso em termos do seu próprio negócio.
Uma das propostas de valor exclusivas que temos no buscador é que estamos ajudando os usuários a encontrar e aprender coisas novas, encontrar respostas, mas sempre com o objetivo de compartilhar com eles a riqueza e a diversidade que existem na web. Isso será verdade, mesmo durante nossa jornada com a Experiência Geradora de Pesquisa. É um princípio importante pelo qual estamos desenvolvendo nosso produto. Acho que as pessoas nem sempre chegam ao Buscador dizendo: “Responda para mim”. Pode haver uma ou duas perguntas para as quais você queira isso, mas mesmo assim você volta, aprende mais ou, nessa jornada, se aprofunda. Queremos constantemente nos certificar de que estamos acertando. E acho que isso não vai mudar. É importante que tenhamos o equilíbrio certo.
Da mesma forma, se você agregar valor profundamente, haverá valor comercial no que está oferecendo. Tivemos perguntas como essa do desktop para o celular. Isso não é novidade para nós. Sinto-me confortável com base em tudo o que estamos vendo e em como os usuários respondem a anúncios de alta qualidade. O YouTube é um bom exemplo em que desenvolvemos modelos de assinatura. Isso também funcionou bem.
Como você acha que a experiência das pessoas mudará no próximo ano, quando esses produtos começarem a chegar ao mercado e a interagir? Como a experiência delas vai mudar?
Acho que daqui a um ano, qualquer pessoa que comece a fazer algo no Google Docs vai esperar algo diferente. E se você der isso a eles e depois os colocar de volta na versão do Google Docs que tínhamos, digamos, em 2022, eles acharão que está muito desatualizado. É como se, para os meus filhos, se eles não tiverem corretor ortográfico, eles vão achar que ele está quebrado. E você e eu talvez nos lembremos de como era usar esses produtos antes do corretor ortográfico. Mas, mais do que qualquer outra empresa, incorporamos tanta IA no Buscador que as pessoas não dão valor a ela. Isso é uma coisa que aprendi com o tempo. Elas não dão valor a isso.
Em termos de coisas novas que as pessoas podem fazer, à medida que desenvolvemos os recursos multimodais, as pessoas poderão realizar tarefas mais complexas de uma forma que não conseguiam antes. E haverá casos de uso reais que serão muito mais poderosos
( fonte: MIT Technology Review )