IA Generativa: le novità del nuovo modello di OpenAi, GPT-4o | Futura guerra frontale con Google sull'IA Generativa? (QuickTalk v07)
Tra le novità di GPT-4o e Google Gemini, si configura il futuro panorama della generative AI. In aggiunta, scopri una live demo delle funzionalità di voce di ChatGPT-4o su Macintosh.
🍔 Ciao la Disruptive Fam! 🍔
Oggi ci ritroviamo per parlare, come ogni settimana, di Intelligenza Artificiale. In questo caso, non vi propongo un focus specifico, ma faccio leva sulle notizie recenti per raccontarvi l'evoluzione del panorama dell'IA Generativa.
La settimana passata è stata ricca di novità in grado di darci indicazioni su chi sta "guidando" il mercato.
Dal lato del numero 1 quasi unanime, spiccano le ultime rivelazioni di OpenAI: il lancio di ChatGPT-4o conferma la sua posizione di leader innovativo, mentre le mosse strategiche di Google ci fanno capire chi sta per diventare IL suo principale concorrente.
In versione podcast audio (con un grande lavoro di post-produzione per eliminare molti dei miei errori): Spotify / Apple Podcasts / Altre piattaforme.
OpenAI presenta ChatGPT-4o: prende voce e diventa gratuito!
OpenAI ci ha colto di sorpresa annunciando ChatGPT-4o, un aggiornamento del suo modello di linguaggio che introduce diverse nuove funzionalità e migliora l'accessibilità per gli utenti..
Novità Principali:
Maggiore accessibilità: è ora disponibile gratuitamente per tutti gli utenti registrati, estendendo alcune funzionalità avanzate precedentemente riservate agli abbonati.
Interazione audio e video: il modello è ora in grado di gestire conversazioni in tempo reale attraverso input audio e video, con la capacità di rilevare e interpretare le espressioni facciali umane per adattare il tono e le risposte.
Applicazione dedicata per mac: finalmente, i possessori di Mac hanno accesso a una versione desktop! Ho fatto una presentazione in live della funzione voce durante il live, ma l’audio non era buono (se riesco vi aggiungo questo sul canale youtube).
Tempi di risposta migliorati: GPT-4o vanta un tempo di risposta di circa 320 millisecondi, avvicinandosi alla velocità di una conversazione umana.
Supporto multilingue esteso: il modello ora supporta fino a 50 lingue, per coprire circa il 97% della popolazione mondiale.
Ho preparato una demo live dell'applicazione per Mac, per provare questa nuova funzionalità vocale. Scusatemi per la qualità video e audio:
Video non disponibile in versione audio podcast.
La mia opinione:
Personalmente, non sarò il primo utilizzatore di questa funzionalità, almeno per il momento (a parte per la domotica, faccio fatica a usare gli assistenti vocali). Tuttavia, riconosco la naturalezza e la praticità di questa funzione per certi casi d'uso specifici, come la traduzione durante un viaggio all'estero, l'apprendimento di una lingua o l'utilizzo come blocco note veloce quando le mani sono occupate.
Secondo me, il punto chiave risiede nella gratuità del modello (gratuità condizionata a una certa quantità di crediti, ovviamente). Vedo in questa mossa una sorta di risposta ai modelli gratuiti open-source lanciati da concorrenti diretti.
Infatti, rendendo accessibile gratuitamente una versione base di GPT-4o, OpenAI mira a democratizzare l'accesso all'IA conversazionale avanzata. Questa strategia potrebbe attrarre un'ampia base di utenti, compresi sviluppatori e ricercatori, che desiderano esplorare le potenzialità del modello senza dover sostenere costi iniziali elevati.
Infine, come spiego alla fine del video, questa funzionalità sarà in grado di scalare effettivamente quando l’hardware sarà pronto. Non mi riferisco di certo all'AI Pin di Humane o al Rabbit R1 (dispositivi che NON SONO PRATICI nell'uso quotidiano, vi consiglio questa recensione di Marques Brownlee su l’AI Pin), ma piuttosto ai dispositivi come XREAL o VITURE, occhiali collegati (con l’aggiunta di una fotocamera, tuttavia); un hardware che consente di parlare e ascoltare facilmente, aggiungendo un layer visivo alla realtà.
Google si lancia nella concorrenza
Mentre OpenAI continua a spingere, Google non sta certo a guardare. La tech giant ha presentato una serie di aggiornamenti e nuovi progetti che mostrano il suo impegno a rimanere in prima linea nella corsa all'innovazione tecnologica.
Highlights di Google:
Gemini 1.5 Pro: modello linguistico potenziato con una finestra contestuale di 2M di token, per analisi più precise di documenti complessi.
Integrazione IA in Google Search e Suite Google: generazione automatica di risposte basate sulle ricerche e accesso alle capacità dell'IA direttamente in Gmail, Drive, Sheets e Docs.
Astra: interazione in tempo reale con l'IA attraverso il video, aprendo nuove possibilità per applicazioni innovative.
Imagen 3 e VEO: generazione di immagini e video IA, concorrenti diretti di Dall-e3 e Sora.
MusicFX: generazione di musica basata su prompt testuali, offrendo nuovi strumenti per la creazione musicale.
Gems: piattaforma per la creazione di bot IA personalizzati, integrabili con gli strumenti Google, simile ai GPT.
Integrazione di Gemini nei telefoni Android: interazione con l'IA tramite audio, video e foto direttamente sui dispositivi mobili.
Learn LM: IA ottimizzata per l'istruzione, per personalizzare l'apprendimento e assistere gli insegnanti nella creazione di materiali didattici coinvolgenti.
Tra competizione frontale e giochi di alleanza
La competizione tra OpenAI e Google si inserisce in un contesto più ampio che coinvolge anche aspetti geopolitici e alleanze tecniche. La possibile vicinanza di OpenAI ad Apple e quella di Google agli dispositivi Android delineano un futuro in cui i sistemi operativi e gli ecosistemi digitali potrebbero diventare ancor più polarizzati, influenzando non solo le scelte dei consumatori ma anche il panorama competitivo tra le aziende.
Questa divisione potrebbe portare a un'ulteriore segmentazione del mercato, dove l'accesso a determinate innovazioni AI potrebbe dipendere dall'ecosistema tecnologico scelto dall'utente.
Gli accordi che OpenAI e Google stanno negoziando con altri attori del settore tecnologico e i contenuti digitali giocano un ruolo cruciale. Questi non solo determinano il flusso di dati e contenuti che alimentano i loro modelli di IA ma delineano anche le future direzioni di sviluppo e le potenziali applicazioni delle loro tecnologie. Come abbiamo visto con l'accordo di OpenAI con Reddit, tali collaborazioni possono avere implicazioni significative per il modo in cui l'intelligenza artificiale viene implementata e utilizzata nel mondo reale.