Dimentica la chat: l’intelligenza artificiale che può ascoltare, vedere e fare clic è già qui

Chattare con un chatbot AI è una novità del 2022. I nuovi strumenti di intelligenza artificiale più interessanti sfruttano modelli multimodali, che possono gestire più cose contemporaneamente, come immagini, audio e testo.

Esempio A: NotebookLM di Google. NotebookLM è uno strumento di ricerca che l’azienda ha lanciato senza grandi clamori un anno fa. Alcune settimane fa, Google ha aggiunto a NotebookLM uno strumento per podcast AI chiamato Audio Overview, consentendo agli utenti di creare podcast su qualsiasi argomento. Basta aggiungere un collegamento, ad esempio, al tuo profilo LinkedIn e gli host del podcast AI aumenteranno il tuo ego per nove minuti. La funzione è diventata un successo virale inaspettato.

Anche i contenuti multimodali generati dall’intelligenza artificiale sono migliorati molto in breve tempo. Nel settembre 2022, ho coperto il primo modello di testo in video di Meta, Make-A-Video. Rispetto alla tecnologia odierna, questi video sembrano goffi e rozzi. Meta ha appena annunciato il suo concorrente di Sora di OpenAI, chiamato Movie Gen. Lo strumento consente agli utenti di utilizzare istruzioni di testo per creare video e suoni personalizzati, modificare video esistenti e trasformare immagini in video.

Anche il modo in cui interagiamo con i sistemi di intelligenza artificiale sta cambiando, diventando meno dipendente dal testo. La nuova interfaccia Canvas di OpenAI consente agli utenti di collaborare su progetti con ChatGPT. Invece di fare affidamento su una finestra di chat tradizionale, che richiede più cicli di istruzioni e rigenerazione del testo per ottenere il risultato desiderato, Canvas consente alle persone di selezionare frammenti di testo o codice da modificare.

Anche la ricerca sta ricevendo un aggiornamento multimodale. Oltre a inserire annunci nelle panoramiche AI, Google ha implementato una nuova funzionalità in cui gli utenti possono caricare un video e utilizzare la propria voce per cercare informazioni. In una demo al Google I/O, l’azienda ha mostrato come aprire l’app Google Lens, registrare un video di pesci che nuotano in un acquario e porre una domanda su di loro. Il modello Gemini di Google effettua quindi una ricerca sul Web e fornisce una risposta sotto forma di un riepilogo dell’intelligenza artificiale di Google.

Ciò che unisce queste funzionalità è un’interfaccia più interattiva e personalizzabile, nonché la possibilità di applicare strumenti di intelligenza artificiale a diversi tipi di materiali. NotebookLM è stato il primo prodotto AI dopo molto tempo che mi ha portato gioia e sorpresa, in parte a causa di quanto diverse, realistiche e inaspettate fossero le voci dell’IA. Ma il fatto che la panoramica audio di NotebookLM sia diventata un successo nonostante sia una funzionalità secondaria all’interno di un prodotto più ampio dimostra semplicemente che gli sviluppatori di intelligenza artificiale non sanno veramente cosa stanno facendo. Difficile da credere ora, ma lo stesso ChatGPT è stato un successo inaspettato per OpenAI.

Siamo da qualche anno nel boom dell’intelligenza artificiale generativa da miliardi di dollari. L’enorme investimento nell’intelligenza artificiale ha contribuito al rapido miglioramento della qualità dei contenuti risultanti. Ma non abbiamo ancora visto la “killer app” e queste nuove applicazioni multimodali sono il risultato dell’enorme pressione che le aziende di intelligenza artificiale stanno affrontando per generare profitti e risultati. Le aziende tecnologiche stanno rilasciando al pubblico diversi strumenti di intelligenza artificiale e vedendo cosa rimane.

( fonte: MIT Technology Review )