Google e OpenAI hanno annunciato nuovi assistenti di Intelligenza Artificiale: strumenti che possono parlarti in tempo reale e recuperare il ritardo quando li interrompi, analizzare il tuo ambiente attraverso video in diretta e tradurre le conversazioni in tempo reale.
OpenAI è stata la prima ad “attaccare”, il 13 maggio, quando ha debuttato il suo nuovo modello di punta, il GPT-4o. La demo dal vivo mostrava l’assistente che leggeva favole della buonanotte e risolveva problemi di matematica, il tutto con una voce che assomigliava stranamente a quella della fidanzata di Joaquin Phoenix nel film Her (una caratteristica che non è passata inosservata al direttore esecutivo Sam Altman).
Il giorno successivo è stata la volta di Google, che ha annunciato i propri nuovi strumenti, tra cui un assistente alla conversazione chiamato Gemini Live. Può fare molte delle stesse cose di OpenAI. La società ha anche rivelato che sta costruendo una sorta di agente AI “tuttofare”, che è attualmente in fase di sviluppo, ma sarà lanciato solo entro la fine dell’anno.
Presto sarai in grado di esplorare da solo e valutare se questi strumenti saranno utili nella tua vita quotidiana come sperano i loro creatori, o se sono più simili a un trucco da festa di fantascienza che finisce per perdere il suo fascino.
Scopri di seguito cosa devi sapere per accedere a questi nuovi strumenti, cosa potrebbe essere utile e quanto costeranno.
GPT-4o di OpenAI
Di cosa è capace: il nuovo modello può parlarti in tempo reale, con un ritardo di risposta di circa 320 millisecondi, che secondo OpenAI è allo stesso livello delle conversazioni umane naturali. Puoi chiedere allo strumento di interpretare qualsiasi cosa, semplicemente puntando la fotocamera del tuo smartphone e, da lì, fornire assistenza con attività come la codifica o la traduzione di testi. Con esso è anche possibile sintetizzare informazioni e generare immagini, font e rendering 3D.
Come accedervi: OpenAI afferma che inizierà a implementare le funzionalità di testo e visione di GPT-40 nell’interfaccia web e nell’app GPT, ma non ha ancora fissato una data. L’azienda afferma che aggiungerà le funzioni vocali nelle prossime settimane, anche se non ha ancora fissato una data precisa. Gli sviluppatori possono ora accedere alle funzionalità di testo e visione nell’API, ma la modalità vocale sarà inizialmente rilasciata solo a un “piccolo gruppo” di sviluppatori.
Quanto costa: GPT-40 sarà gratuito, ma OpenAI fisserà dei limiti su come è possibile utilizzare il modello prima di dover passare a un piano a pagamento. Coloro che si iscrivono a uno dei piani a pagamento di OpenAI, che partono da $ 20 al mese, otterranno una potenza cinque volte maggiore su GPT-40.
Gemini di Google in diretta
Cos’è Gemini Live? Questo è il prodotto Google che assomiglia di più a GPT-40. È una versione del modello AI dell’azienda con cui puoi parlare in tempo reale. Google afferma che sarà anche possibile utilizzare lo strumento per comunicare tramite video in diretta “entro la fine dell’anno”. L’azienda promette che sarà un utile assistente alla conversazione per compiti come prepararsi per un colloquio di lavoro o provare un discorso.
Come accedervi: Gemini Live verrà lanciato, secondo l’azienda, nei prossimi mesi, attraverso il piano AI premium di Google, Gemini Advanced.
Quanto costa: Gemini Advanced offre una prova gratuita di due mesi, dopodiché costa $ 20 al mese.
Ma aspetta, cos’è il Progetto Astra? Astra è un progetto per creare un agente AI tuttofare, che è stato dimostrato alla conferenza I/O di Google ma che non verrà lanciato prima della fine dell’anno.
Cos’è meglio?
È difficile dirlo senza avere in mano le versioni complete di questi modelli. Google ha presentato Project Astra in un video raffinato, mentre OpenAI ha scelto di far debuttare GPT-40 con una demo live apparentemente più autentica. Ma in entrambi i casi, ai modelli è stato chiesto di fare cose che probabilmente i designer avevano già praticato. Il vero test sarà quando verranno presentati a milioni di utenti, con esigenze uniche.
Detto questo, se si confrontano i video pubblicati da OpenAI con quelli di Google, i due strumenti principali sono molto simili, almeno per quanto riguarda la facilità d’uso. Nel complesso, il GPT-40 sembra essere un po’ più avanti nell’audio, con voci realistiche, flusso di conversazione e persino canto, mentre Project Astra presenta funzionalità visive più avanzate, come la capacità di ricordare dove hai lasciato gli occhiali. La decisione di OpenAI di implementare nuove funzionalità più rapidamente potrebbe significare che il suo prodotto verrà utilizzato inizialmente più di quello di Google, che sarà completamente disponibile solo entro la fine dell’anno. È troppo presto per dire quale modello generi meno frequentemente informazioni false o crei risposte più utili.
Sono sicuri?
Sia OpenAI che Google affermano che i loro modelli sono stati ben testati: OpenAI afferma che GPT-40 è stato valutato da più di 70 esperti in aree come la disinformazione e la psicologia sociale, e Google afferma che Gemini “ha le revisioni delle misure di sicurezza più complete di qualsiasi altro Google Modello di intelligenza artificiale fino ad oggi, anche contro bias e tossicità”.
Ma queste aziende stanno costruendo un futuro in cui i modelli di intelligenza artificiale ricercano, esaminano e valutano le informazioni del mondo in modo da poter fornire risposte concise alle nostre domande. Ancor più che con i chatbot più semplici, è consigliabile rimanere scettici su ciò che ci dicono.
( fonte: James O’Donnell/ MIT Technology Review )