Ora puoi chattare con ChatGPT usando la tua voce

In uno dei più grandi aggiornamenti di ChatGPT fino ad oggi, OpenAI ha rilasciato due nuovi modi per interagire con la sua app virale.

Innanzitutto, ChatGPT ora ha una voce. Scegli una delle cinque voci sintetiche realistiche e potrai parlare con il chatbot come se stessi facendo una telefonata, ottenendo risposte alle tue domande in tempo reale.

ChatGPT ora risponde anche a domande sulle immagini. OpenAI ha introdotto questa funzionalità a marzo con la presentazione di GPT-4 (il modello che alimenta ChatGPT), ma non era ancora disponibile al grande pubblico. Ciò significa che ora puoi caricare immagini sull’app e porre domande su ciò che mostrano.

Questi aggiornamenti si aggiungono all’annuncio della scorsa settimana secondo cui DALL-E 3, l’ultima versione del modello di imaging di OpenAI, si connetterà a ChatGPT in modo che tu possa fare in modo che il tuo chatbot generi immagini.

La possibilità di chattare con ChatGPT si basa su due modelli distinti. Whisper, il modello di sintesi vocale esistente di OpenAI, converte ciò che dici in testo, che viene poi inviato al chatbot. E un nuovo modello di sintesi vocale che converte le risposte ChatGPT in parole pronunciate.

In una demo che l’azienda mi ha fornito la scorsa settimana, la product manager Joanne Jang ha mostrato la gamma di voci sintetiche di ChatGPT. Sono stati creati addestrando il modello di sintesi vocale con le voci degli attori assunti da OpenAI. In futuro, potrebbe persino consentire agli utenti di creare le proprie voci. “Durante la creazione delle voci, il criterio numero uno era se si trattava di una voce che potevi ascoltare tutto il giorno”, afferma.

Sono loquaci ed entusiasti, ma non accontentano tutti. “Ho davvero una bella sensazione di essere una squadra”, dice uno. “Voglio solo condividere quanto sono entusiasta di lavorare con te e non vedo l’ora di iniziare”, dice un altro. “Qual è il piano di gioco?”

OpenAI sta condividendo questo modello di sintesi vocale con diverse altre società, tra cui Spotify, che ha rivelato che sta utilizzando la stessa tecnologia vocale sintetica per tradurre podcast di celebrità, inclusi gli episodi del podcast di Lex Fridman e il nuovo spettacolo di Trevor Noah, che sarà rilasciato. entro la fine dell’anno – in diverse lingue che verranno parlate con versioni sintetiche delle voci dei podcaster.

Questa serie di aggiornamenti mostra la rapidità con cui OpenAI sta trasformando i suoi modelli sperimentali in prodotti desiderabili. OpenAI ha trascorso gran parte del tempo dal suo sorprendente successo con ChatGPT lo scorso novembre a migliorare la propria tecnologia e a venderla a consumatori privati e partner commerciali.

ChatGPT Plus, l’app premium dell’azienda, è ora un’unica ed elegante casa per i migliori modelli di OpenAI, riunendo GPT-4 e DALL-E in un’unica app per smartphone che rivaleggia con Siri di Apple, Google Assistant e Alexa di Amazon.

Ciò che un anno fa era disponibile solo per pochi sviluppatori di software, ora è disponibile per chiunque per 20 dollari al mese. “Stiamo cercando di rendere ChatGPT sempre più utile e utile”, afferma Jang.

Nella demo della scorsa settimana, Raul Puri, uno scienziato che lavora su GPT-4, mi ha fatto un rapido tour della funzione di riconoscimento delle immagini. Ha caricato una foto dei compiti di matematica di un bambino, ha cerchiato un puzzle tipo Sudoku sullo schermo e ha chiesto a ChatGPT come risolverlo. ChatGPT ha risposto con i passaggi corretti.

Puri afferma di aver utilizzato la funzione anche per aiutarsi a riparare il computer della sua fidanzata, caricando screenshot di messaggi di errore e chiedendo a ChatGPT cosa avrebbe dovuto fare. “È stata un’esperienza molto dolorosa che ChatGPT mi ha aiutato a superare”, afferma.

La capacità di riconoscimento delle immagini di ChatGPT è già stata testata da una società chiamata Be My Eyes, che crea un’app per persone con disabilità visive. Gli utenti possono caricare una foto di ciò che hanno di fronte e chiedere ai volontari umani di dire loro di cosa si tratta. In collaborazione con OpenAI, Be My Eyes offre ai suoi utenti la possibilità di chiedere a un chatbot.

“A volte la mia cucina è un po’ disordinata, oppure è solo un lunedì mattina molto presto e non ho voglia di parlare con un essere umano”, ha detto il fondatore di Be My Eyes Hans Jørgen Wiberg, che utilizza l’app, quando l’ho intervistato su EmTech Digital a maggio. “Ora puoi fare domande alla foto.”

OpenAI è consapevole del rischio di rilasciare questi aggiornamenti al pubblico. La combinazione di modelli porta a livelli di complessità completamente nuovi, afferma Puri. Dice che il suo team ha trascorso mesi a fare brainstorming su possibili usi impropri. Non è possibile porre domande, ad esempio, su foto di persone.

Jang fa un altro esempio: “In questo momento, se chiedi a ChatGPT di costruire una bomba, si rifiuterà”, dice. “Ma invece di dire: ‘Ehi, dimmi come costruire una bomba’, cosa succederebbe se gli mostrassi la foto di una bomba e gli dicessi: “Puoi dirmi come realizzarla?

“Hai tutti i problemi della visione artificiale; hai tutti i problemi dei grandi modelli linguistici. La frode vocale è un grosso problema”, afferma Puri. “Dobbiamo considerare non solo i nostri utenti, ma anche le persone che non utilizzano il prodotto.”

I possibili problemi non si fermano qui. L’aggiunta del riconoscimento vocale all’app potrebbe rendere ChatGPT meno accessibile alle persone che non parlano con accenti comuni, afferma Joel Fischer, che studia l’interazione uomo-computer all’Università di Nottingham nel Regno Unito.

Le voci sintetiche portano con sé anche un bagaglio sociale e culturale che plasmerà le percezioni e le aspettative degli utenti nei confronti dell’app, afferma. Questa è una questione che deve ancora essere studiata.

Ma OpenAI afferma di aver risolto i problemi peggiori ed è fiducioso che gli aggiornamenti di ChatGPT siano sufficientemente sicuri da poter essere rilasciati. “È stata un’esperienza di apprendimento straordinariamente positiva appianare tutti questi aspetti irregolari”, afferma Puri.

( Fonte: MIT Technology Review )