Yann LeCun tem uma nova visão ousada para o futuro da Inteligência Artificial

Um dos padrinhos do deep learning reúne ideias antigas para esboçar um novo caminho para a Inteligência Artificial, mas levanta tantas perguntas quanto responde.
by MIT Technology Review
Cerca de um ano e meio atrás, Yann LeCun percebeu que estava errado.
LeCun, cientista-chefe do laboratório de Inteligência Artificial (IA) da Meta e professor da Universidade de Nova York (EUA), é um dos pesquisadores de IA mais influentes do mundo. Ele estava tentando dar às máquinas uma compreensão básica de como o mundo funciona, uma espécie de bom senso, treinando redes neurais para prever o que aconteceria a seguir em vídeos de eventos cotidianos. Mas adivinhar frames futuros de um vídeo pixel por pixel era muito complexo. Ele deu de cara em uma parede.
Agora, depois de meses pesquisando o que estava faltando, ele tem uma nova visão ousada para a próxima geração de IA. Em um documento preliminar compartilhado com a MIT Technology Review americana, LeCun esboça uma abordagem que ele acha que um dia dará às máquinas o bom senso de que precisam para transitar pelo mundo. (Atualização: Desde então, LeCun postou o documento online.)
Para LeCun, as propostas podem ser os primeiros passos no caminho para construir máquinas com a capacidade de raciocinar e planejar como humanos, o que muitos chamam de Inteligência Artificial Geral, ou AGI. Ele também se afasta das tendências atuais em machine learning, ressuscitando algumas ideias antigas que saíram de moda.
Mas sua visão está longe de ser abrangente; na verdade, pode levantar mais perguntas do que respostas. O maior ponto de interrogação, como o próprio LeCun aponta, é que ele não sabe construir o que descreve.
A peça central da nova abordagem é uma rede neural que pode aprender a ver o mundo em diferentes níveis de detalhes. Abandonando a necessidade de previsões de pixels perfeitos, essa rede se concentraria apenas nos recursos em uma cena que são relevantes para a tarefa em questão. LeCun propõe emparelhar esta rede principal com outra, chamada de configurador, que determina qual nível de detalhe é necessário e ajusta o sistema geral de acordo.
Para LeCun, a AGI fará parte de como interagimos com a tecnologia do futuro. Sua visão é influenciada pela de seu empregador, Meta, que está promovendo um metaverso de realidade virtual. Ele diz que em 10 ou 15 anos as pessoas não estarão carregando smartphones nos bolsos, mas óculos de realidade aumentada equipados com assistentes virtuais que guiarão os humanos durante o dia. “Para que eles sejam mais úteis para nós, eles basicamente precisam ter mais ou menos inteligência no nível humano”, diz ele.
“Yann vem falando sobre muitas dessas ideias há algum tempo”, diz Yoshua Bengio, pesquisador de IA da Universidade de Montreal, Canadá, e diretor científico do Instituto Mila-Quebec. “Mas é bom ver tudo isso junto, como em um grande quadro”. Bengio acha que LeCun faz as perguntas certas. Ele também acha ótimo que LeCun esteja disposto a publicar um documento que tem tão poucas respostas. É uma proposta de pesquisa e não um conjunto de resultados limpos, diz ele.
“As pessoas falam sobre essas coisas em particular, mas que geralmente não são compartilhadas publicamente”, diz Bengio. “É arriscado”.
Uma questão de bom senso
LeCun pensa em IA há quase 40 anos. Em 2018, ele foi o vencedor conjunto do prêmio principal da computação, o Turing Award, com Bengio e Geoffrey Hinton, por seu trabalho pioneiro em deep learning. “Fazer com que as máquinas se comportem como humanos e animais tem sido a missão da minha vida”, diz ele.
LeCun pensa que os cérebros dos animais executam uma espécie de simulação do mundo, que ele chama de modelo mundial. Aprendida na infância, é a maneira como os animais (incluindo os humanos) fazem boas suposições sobre o que está acontecendo ao seu redor. Os bebês aprendem o básico nos primeiros meses de vida observando o mundo, diz LeCun. Ver uma bola cair um punhado de vezes é suficiente para dar à criança uma noção de como a gravidade funciona.
“Bom senso” é o termo genérico para esse tipo de raciocínio intuitivo. Inclui uma compreensão da física simples: por exemplo, saber que o mundo é tridimensional e que os objetos não desaparecem quando ficam fora de vista. Ele nos permite prever onde uma bola quicando ou uma bicicleta em alta velocidade estará em alguns segundos. E isso nos ajuda a juntar os pontos entre informações incompletas: se ouvirmos um barulho metálico vindo da cozinha, podemos adivinhar que alguém deixou cair uma panela, porque sabemos que tipos de objetos fazem esse barulho e quando fazem isto.
Em suma, o senso comum nos diz quais eventos são possíveis e impossíveis, e quais eventos são mais prováveis do que outros. Ele nos permite prever as consequências de nossas ações e fazer planos, além de ignorar detalhes irrelevantes.
Mas ensinar bom senso às máquinas é difícil. As redes neurais de hoje precisam receber milhares de exemplos antes de começarem a identificar esses padrões.
De muitas maneiras, o senso comum equivale à capacidade de prever o que vai acontecer a seguir. “Esta é a essência da inteligência”, diz LeCun. É por isso que ele, e alguns outros pesquisadores, têm usado vídeos para treinar seus modelos. Mas as técnicas de machine learning existentes exigiam que os modelos predissessem exatamente o que aconteceria no próximo frame e gerassem o resultado pixel por pixel. Imagine que você segura uma caneta e a solta, diz LeCun. O senso comum lhe diz que a caneta cairá, mas não a posição exata em que ela terminará. Prever isso exigiria processar algumas equações físicas difíceis.
É por isso que LeCun está agora tentando treinar uma rede neural que pode se concentrar apenas nos aspectos relevantes do mundo: prever que a caneta cairá, mas não exatamente como. Ele vê essa rede treinada como o equivalente ao modelo mundial em que os animais confiam.
Ingredientes misteriosos
LeCun diz que construiu uma versão inicial desse modelo de mundo que pode fazer o reconhecimento básico de objetos. Ele agora está trabalhando em treiná-lo para fazer previsões. Mas como o configurador deve funcionar permanece um mistério, diz ele. LeCun imagina essa rede neural como o controlador de todo o sistema. Ele decidiria que tipo de previsões o modelo mundial deveria fazer em um determinado momento e em que nível de detalhe ele deveria se concentrar para tornar essas previsões possíveis, ajustando o modelo mundial conforme necessário.
LeCun está convencido de que algo como um configurador é necessário, mas ele não sabe como treinar uma rede neural para fazer o trabalho. “Precisamos descobrir uma boa receita para fazer isso funcionar, e ainda não temos isso”, diz ele.

Na visão de LeCun, o modelo de mundo e o configurador são duas peças-chave em um sistema maior, conhecido como arquitetura cognitiva, que inclui outras redes neurais, como um modelo de percepção que detecta o mundo e um modelo que usa recompensas para motivar a IA explorar ou refrear seu comportamento.
Cada rede neural é aproximadamente análoga a partes do cérebro, diz LeCun. Por exemplo, o configurador e o modelo de mundo destinam-se a replicar funções do córtex pré-frontal. O modelo de motivação corresponde a certas funções da amígdala e assim por diante.
A ideia de arquiteturas cognitivas, especialmente aquelas inspiradas no cérebro, existe há décadas. Assim como muitas das ideias de LeCun sobre previsão usando modelos com diferentes níveis de detalhes. Mas quando o deep learning se tornou a abordagem dominante em IA, muitas dessas ideias mais antigas saíram de moda. “As pessoas na pesquisa de IA meio que se esqueceram disso um pouco”, diz ele.
O que ele fez foi pegar essas ideias mais antigas e reabilitá-las, sugerindo maneiras de combiná-las com o deep learning. Para LeCun, revisitar essas ideias fora de moda é essencial, porque ele acredita que as duas abordagens dominantes na IA moderna são becos sem saída.
Quando se trata de construir IA de uso geral, existem dois campos principais. Em um deles, muitos pesquisadores acham que o sucesso extraordinário de modelos muito grandes de linguagem ou criação de imagens, como o GPT-3 e o DALL-E da OpenAI, mostram que tudo o que precisamos fazer é construir modelos cada vez maiores.
No outro campo estão os campeões do learning reinforcement, a técnica de IA que recompensa comportamentos específicos para fazer com que as redes neurais aprendam por tentativa e erro. Esta é a abordagem que a DeepMind usou para treinar suas IAs de jogo como AlphaZero. Obtenha as recompensas certas e o learning reinforcement acabará produzindo uma inteligência mais geral.
LeCun não aceita nada disso: “Essa ideia de que vamos apenas aumentar e replicar os grandes modelos de linguagem atuais e, eventualmente, a IA em nível humano surgirá… Eu não acredito nisso, nem por um segundo”. Esses grandes modelos apenas manipulam palavras e imagens, diz ele. Eles não têm experiência empírica do mundo.
Ele é igualmente cético em relação ao learning reinforcement, porque requer grandes quantidades de dados para treinar modelos para realizar até mesmo tarefas simples. “Acho que isso não tem chance alguma de funcionar”, diz LeCun.
David Silver, da DeepMind, que liderou o trabalho no AlphaZero e é um grande defensor do learning reinforcement, discorda dessa avaliação, mas dá as boas-vindas à visão geral de LeCun. “É uma nova proposta empolgante de como um modelo mundial pode ser representado e aprendido”, diz ele.
Melanie Mitchell, pesquisadora de IA do Santa Fe Institute (EUA), também está animada para ver uma abordagem totalmente nova. “Nós realmente não imaginamos que isso viria da comunidade de deep learning”, diz ela. Ela também concorda com LeCun que grandes modelos de linguagem não podem ser toda a história. “Eles não têm memória e modelos internos do mundo que são importantes”, diz ela.
No entanto, Natasha Jaques, pesquisadora do Google Brain, acha que os modelos de linguagem ainda devem desempenhar um papel. É estranho que a linguagem esteja totalmente ausente das propostas de LeCun, ela diz: “Sabemos que grandes modelos de linguagem são super eficazes e incorporam um monte de conhecimento humano”.

Jaques, que trabalha em maneiras de fazer com que as IAs compartilhem informações e habilidades entre si, ressalta que os humanos não precisam ter experiência direta de algo para aprender sobre isso. Podemos mudar nosso comportamento simplesmente ouvindo algo, como não tocar em uma panela quente. “Como atualizo esse modelo de mundo que Yann está propondo se eu não tenho linguagem?” ela pergunta.
Há outra questão também. Se funcionassem, as ideias de LeCun criariam uma tecnologia poderosa que poderia ser tão revolucionária quanto a internet. E, no entanto, sua proposta não discute como o comportamento e as motivações de seu modelo seriam controlados, ou quem os controlaria. Esta é uma omissão estranha, diz Abhishek Gupta, fundador do Montreal AI Ethics Institute e especialista responsável em IA no Boston Consulting Group.
“Devemos pensar mais sobre o que é preciso para que a IA funcione bem em uma sociedade, e isso requer pensar sobre comportamento ético, entre outras coisas”, diz Gupta.
No entanto, Jaques observa que as propostas de LeCun ainda são muito mais ideias do que aplicações práticas. Mitchell diz o mesmo: “Certamente há pouco risco de isso se tornar uma inteligência de nível humano em breve”.
LeCun concordaria. Seu objetivo é semear as sementes de uma nova abordagem na esperança de que outros a construam. “Isso é algo que vai exigir muito esforço de muitas pessoas”, diz ele. “Estou divulgando isso porque acho que, no final das contas, esse é o caminho a seguir.” Se nada mais, ele quer convencer as pessoas de que grandes modelos de linguagem e learning reinforcement não são os únicos caminhos a seguir.
“Eu odeio ver as pessoas desperdiçando o tempo delas”, diz ele.