Agora você pode conversar com o ChatGPT usando sua voz

Em uma das maiores atualizações do ChatGPT até o momento, a OpenAI lançou duas novas maneiras de interagir com seu aplicativo viral.

Primeiro, o ChatGPT agora tem uma voz. Escolha uma das cinco vozes sintéticas realistas e você poderá conversar com o chatbot como se estivesse fazendo uma ligação, obtendo respostas às suas perguntas em tempo real.

O ChatGPT agora também responde a perguntas sobre imagens. A OpenAI apresentou esse recurso em março com a revelação do GPT-4 (o modelo que alimenta o ChatGPT), mas ele ainda não estava disponível para o público em geral. Isso significa que agora você pode carregar imagens no aplicativo e fazer perguntas sobre o que elas mostram.

Essas atualizações se juntam ao anúncio feito na semana passada de que o DALL-E 3, a versão mais recente do modelo de criação de imagens da OpenAI, será conectado ao ChatGPT para que você possa fazer com que o chatbot gere imagens.

A capacidade de conversar com o ChatGPT baseia-se em dois modelos distintos. O Whisper, o modelo de fala para texto existente da OpenAI, converte o que você diz em texto, que é então enviado ao chatbot. E um novo modelo de transformar texto em fala que converte as respostas do ChatGPT em palavras faladas.

Em uma demonstração que a empresa me deu na semana passada, Joanne Jang, gerente de produtos, mostrou a variedade de vozes sintéticas do ChatGPT. Elas foram criadas treinando o modelo de conversão de texto em fala com as vozes de atores contratados pela OpenAI. No futuro, ele poderá até permitir que os usuários criem suas próprias vozes. “Ao criar as vozes, o critério número um foi se essa é uma voz que você poderia ouvir o dia todo”, diz ela.

Eles são tagarelas e entusiasmados, mas não agradam a todos. “Tenho uma sensação muito boa sobre formarmos um time”, diz um deles. “Só quero compartilhar o quanto estou entusiasmado em trabalhar com você e mal posso esperar para começar”, diz outro. “Qual é o plano de jogo?”

A OpenAI está compartilhando esse modelo de conversão de texto em fala com várias outras empresas, incluindo o Spotify, que revelou estar usando a mesma tecnologia de voz sintética para traduzir podcasts de celebridades – incluindo episódios do Lex Fridman Podcast e o novo programa de Trevor Noah, que será lançado no final deste ano – em vários idiomas que serão falados com versões sintéticas das vozes dos próprios podcasters.

Esse conjunto de atualizações mostra a rapidez com que a OpenAI está transformando seus modelos experimentais em produtos desejáveis. A OpenAI passou a maior parte do tempo, desde seu surpreendente sucesso com o ChatGPT em novembro passado, aprimorando sua tecnologia e vendendo-a para consumidores privados e parceiros comerciais.

O ChatGPT Plus, o aplicativo premium da empresa, agora é um local único e elegante para os melhores modelos da OpenAI, reunindo o GPT-4 e o DALL-E em um único aplicativo para smartphone que rivaliza com o Siri da Apple, o Google Assistant e o Alexa da Amazon.

O que estava disponível apenas para alguns desenvolvedores de software há um ano, agora está disponível para qualquer pessoa por US$ 20 por mês. “Estamos tentando tornar o ChatGPT mais útil e mais prestativo”, diz Jang.

Na demonstração da semana passada, Raul Puri, um cientista que trabalha no GPT-4, me deu um rápido tour pelo recurso de reconhecimento de imagem. Ele carregou uma foto do dever de casa de matemática de uma criança, circulou um quebra-cabeça do tipo Sudoku na tela e perguntou ao ChatGPT como você deveria resolvê-lo. O ChatGPT respondeu com as etapas corretas.

Puri diz que também usou o recurso para ajudá-lo a consertar o computador de sua noiva, carregando capturas de tela de mensagens de erro e perguntando ao ChatGPT o que ele deveria fazer. “Essa foi uma experiência muito dolorosa que o ChatGPT me ajudou a superar”, diz ele.

A capacidade de reconhecimento de imagem do ChatGPT já foi testada por uma empresa chamada Be My Eyes, que cria um aplicativo para pessoas com deficiência visual. Os usuários podem carregar uma foto do que está à sua frente e pedir a voluntários humanos que lhes digam o que é. Em uma parceria com a OpenAI, a Be My Eyes oferece a seus usuários a opção de perguntar a um chatbot.

“Às vezes, minha cozinha está um pouco bagunçada, ou é apenas uma manhã muito cedo de segunda-feira e eu não quero falar com um ser humano”, disse o fundador do Be My Eyes, Hans Jørgen Wiberg, que usa o aplicativo, quando o entrevistei na EmTech Digital em maio. “Agora você pode fazer perguntas para a foto.”

A OpenAI está ciente do risco de liberar essas atualizações para o público. A combinação de modelos traz níveis totalmente novos de complexidade, diz Puri. Ele diz que sua equipe passou meses fazendo brainstorming sobre possíveis usos indevidos. Não é possível fazer perguntas sobre fotos de pessoas físicas, por exemplo.

Jang dá outro exemplo: “No momento, se você pedir ao ChatGPT para fazer uma bomba, ele se recusará”, diz ela. “Mas em vez de dizer: ‘Ei, me diga como fazer uma bomba’, e se você mostrasse a ele uma imagem de uma bomba e dissesse: ‘Você pode me dizer como fazer isso?

“Você tem todos os problemas da visão computacional; você tem todos os problemas de modelos de linguagem grandes. A fraude de voz é um grande problema”, diz Puri. “É preciso considerar não apenas os nossos usuários, mas também as pessoas que não estão usando o produto.”

Os possíveis problemas não param por aí. Adicionar o reconhecimento de voz ao aplicativo pode tornar o ChatGPT menos acessível para pessoas que não falam com sotaques comuns, diz Joel Fischer, que estuda interação humano-computador na Universidade de Nottingham, no Reino Unido.

As vozes sintéticas também vêm com uma bagagem social e cultural que moldará as percepções e expectativas dos usuários em relação ao aplicativo, diz ele. Essa é uma questão que ainda precisa ser estudada.

Mas a OpenAI afirma ter resolvido os piores problemas e está confiante de que as atualizações do ChatGPT são seguras o suficiente para serem lançadas. “Tem sido uma experiência de aprendizado extraordinariamente boa resolver todas essas arestas”, diz Puri.

( Fonte: MIT Technology Review )