Come cambia la user experience con l’AI multimodale: gli esempi presentati da Colin Jarvis di OpenAI al Netcomm Forum 2024

Fonte: NetComm Forum

I modelli di AI multimodali sviluppati negli ultimi anni stanno rivoluzionando l'esperienza degli utenti in tanti modi diversi: Colin Jarvis ha elencato alcune applicazioni attuali e future di questa tecnologia.

Twitter Facebook Linkedin

I nuovi modelli di AI generativa, come quelli sviluppati da OpenAI, sono attualmente capaci di ricevere ed elaborare input multimodali (ossia, immagini, audio, video e testo) e di generare output multimodali per l’utente, adattandosi anche al contesto di riferimento: si tratta di una tecnologia entusiasmante, che apre tante possibilità e che per questo è stata al centro dell’intervento di Colin Jarvis al NetComm Forum 2024.

Il principal solutions architect di OpenAI, uno dei più grandi player in materia di intelligenza artificiale, ha elencato diversi esempi di come la multimodalità sta già trasformando la user experience, permettendo di rispondere in modo sempre più efficiente ai bisogni degli utenti.

Nuove esperienze multimodali alimentate dall’AI generativa di OpenAI: alcuni esempi

Come ha spiegato Colin Jarvis all’inizio del suo speech, OpenAI ha lo scopo di «creare AI a beneficio di tutta l’umanità».

In questo senso, l’azienda punta allo sviluppo di tecnologie che siano in grado di sostituire diversi compiti svolti dagli esseri umani «con un importante valore economico, ricordando però la necessità di fare sì che questi modelli siano sicuri e non arrechino danno alle persone»: si tratta di un tema cruciale quando si parla di multimodalità, come ha fatto notare l’esperto, ma anche di una grande sfida per coloro che, come OpenAI, si occupano dello sviluppo dei nuovi modelli di AI generativa, come ChatGPT o Gemini (di Google).

Fonte: NetComm Forum

Colin Javis ha poi elencato alcune applicazioni che permettono di capire il potenziale in ottica di user experience della multimodalità, spiegando come può aiutare le persone in tanti modi diversi.

Tra i vari esempi di sistemi e applicazioni alimentate dall’AI multimodale di OpenAI, è possibile citare Presto, un sistema (alimentato nello specifico da GPT-4) pensato per i drive through nordamericani, che permette ai clienti dei ristoranti di collegarsi a un’app, fare l’ordine e pagare, cosicché lo staff possa dedicare più tempo ad altri compiti.

Un altro esempio presentato da Colin Jarvis al Netcomm Forum 2024 è stato Be My Eyes, un’app ideata per ciechi e ipovedenti. L’app in questione può limitarsi a descrivere il contesto circostante, oppure a fare dei “ragionamenti” più complessi: per esempio, gli utenti possono puntare la telecamera verso il frigo e ottenere un elenco dei prodotti lì presenti. Al contempo, l’app può anche identificare un prodotto che si trova vicino alla scadenza e ricordare all’utente di ricomprarlo o, ancora, in base agli ingredienti presenti nel frigo, può suggerire la preparazione di un determinato pasto, così da poterlo consumare al più presto.

Fonte: NetComm Forum

Un altro esempio proposto ancora dall’esperto riguarda la traduzione delle lingue: OpenAI ha sviluppato un programma per Spotify pensato per tradurre i podcast presenti su questa piattaforma, in diverse lingue. A tal proposito, durante il suo intervento, Colin Jarvis ha presentato il risultato di un primo esperimento di utilizzo di questa tecnologia, dove si ascoltava la versione originale di un podcast del conduttore radiofonico Lex Fridman e, subito dopo, la relativa versione tradotta, in cui si manteneva la voce del podcaster tradotta però dall’inglese allo spagnolo.

I modelli in questione e i prodotti da essi alimentati sono ancora in una fase di sperimentazione e bisogna «garantire che siano sicuri e utilizzabili»: come ha aggiunto il relatore,

«occorre identificare le barriere che esistono oggi e che l’AI può permetterci di abbattere domani».

Cosa sarà possibile fare in futuro grazie ai modelli di AI multimodali?

Dopo essersi soffermato su ciò che i modelli di AI multimodali permettono già di fare, Colin Javis ha permesso al pubblico di Netcomm Forum 2024 di avere un piccolo assaggio di ciò che presto questa tecnologia consentirà di fare.

Il relatore ha infatti presentato un breve esperimento, in cui chiedeva a un’app, alimentata dall’AI generativa di OpenAI, di parlare con l’accento colombiano, mostrando come in futuro potrebbe essere possibile richiedere ai modelli AI di parlare non solo in diverse lingue ma anche in numerosi accenti diversi.

Successivamente, si ascoltava la stessa frase detta con un tono di voce felice e, dopo, con un tono di voce triste, mostrando in questo modo come presto dovrebbe essere possibile anche richiedere a un’app, alimentata dai modelli di AI generativa, di riprodurre delle emozioni specifiche, alla stregua di un essere umano.

Si tratta di applicazioni sorprendenti, che in un futuro prossimo possono avere un impatto su tanti settori.

Resta aggiornato!

Iscriviti gratuitamente per essere informato su notizie e offerte esclusive su corsi, eventi, libri e strumenti di marketing.

Newsletter Telegram GoogleNews

Come cambia la user experience con l’AI multimodale: gli esempi presentati da Colin Jarvis di OpenAI al Netcomm Forum 2024

Nuove esperienze multimodali alimentate dall’AI generativa di OpenAI: alcuni esempi

Cosa sarà possibile fare in futuro grazie ai modelli di AI multimodali?

Notizie correlate

La Commissione europea ha confermato che Meta e X violano Digital Markets Act e Digital Services Act

Un nuovo programma di accelerazione AI per le startup europee di Meta, Hugging Face e Scaleway

Secondo NewsGuard in un caso su tre le AI amplificano fake news e propaganda politica

“Genitori connessi” è il titolo della serie lanciata da Meta per promuovere l’educazione digitale in famiglia

Il “ddl cybersecurity” punta a rendere il Paese più resiliente alle minacce informatiche

WMF – We Make Future: oltre 70.000 le presenze da 90 Paesi per dare una nuova direzione al futuro