Negli ultimi giorni, OpenAI ha introdotto due significative novità nell’interfaccia utente della sua celebre app, ChatGPT. Questi aggiornamenti rappresentano un passo in avanti notevole nella continua evoluzione di questa straordinaria applicazione di AI.
In primo luogo, ChatGPT è ora dotata di una voce. Gli utenti possono scegliere tra cinque voci sintetiche estremamente realistiche e conversare con il chatbot come se si stesse effettuando una chiamata telefonica, ricevendo risposte in tempo reale alle proprie domande.
La seconda novità è che ChatGPT è ora in grado di rispondere alle domande riguardanti le immagini. Ciò significa che ora è possibile caricare immagini nell’app e interrogare quest’ultima sul loro contenuto. L’azienda produttrice aveva anticipato questa funzionalità nel mese di marzo con la presentazione di GPT-4, il modello che alimenta ChatGPT, ma fino ad ora non era stata ancora resa disponibile al pubblico.
Questi aggiornamenti costituiscono un interessantissimo sequel rispetto all’annuncio della scorsa settimana riguardante DALL-E 3, l’ultima versione del modello di creazione di immagini di OpenAI, che sarà collegato a ChatGPT, consentendo agli utenti di generare immagini tramite quest’ultimo.
La possibilità di conversare con ChatGPT si basa su due modelli separati. Whisper, il modello di conversione delle conversazioni, traduce ciò che si dice in testo, e quest’ultimo viene trasmesso al chatbot. Al contrario, un nuovo modello di text-to-speech trasforma le risposte generate da ChatGPT in parole che vengono poi pronunciate dall’applicazione.
In una demo effettuata la scorsa settimana, Joanne Jang, product manager di OpenAI, ha condiviso le diverse di voci sintetiche offerte da ChatGPT. Queste ultime sono state create attraverso l’addestramento del modello di text-to-speech usando le voci di attori assunti per questo scopo. In futuro, potrebbe persino essere possibile per gli utenti creare le proprie voci personalizzate. Alle voci attualmente disponibili è stato dato un tono cordiale ed entusiastico, ma naturalmente potrebbero non incontrare i gusti di tutti.
Il nuovo pacchetto di aggiornamenti dimostra quanto rapidamente OpenAI stia trasformando i suoi modelli sperimentali in prodotti di largo consumo. Dopo il sorprendente successo dell’applicazione, OpenAI ha dedicato molto tempo a perfezionare la sua tecnologia e a offrirla sia ai consumatori privati che ai partner commerciali.
ChatGPT Plus, l’app premium dell’azienda, è ora una comoda soluzione all-in-one per accedere ai migliori modelli di OpenAI, combinando GPT-4 e DALL-E in un’unica app per smartphone che può competere con Siri di Apple, Google Assistant e Amazon Alexa – al costo di 20 dollari al mese.
Sempre durante la dimostrazione tenuta la scorsa settimana, Raul Puri, uno membro del team di sviluppo, ha mostrato brevemente la funzionalità di riconoscimento delle immagini. Ha caricato una foto dei compiti di matematica di un bambino, ha cerchiato un quesito sullo schermo e ha chiesto a ChatGPT come risolverlo. Il chatbot ha restituito una risposta corretta.
Le nuove funzionalità offrono anche interessanti prospettive dal punto di vista medico, andando ad aumentare la qualità di vita e la possibilità di interazione delle persone con handicap sensoriali. L’abilità di riconoscere le immagini di ChatGPT è stata infatti testata da un’azienda chiamata Be My Eyes, che ha creato un’app per le persone con problemi di vista. Gli utenti possono caricare una foto di ciò che hanno di fronte e chiedere al chatbot di descriverla.
Accanto alle opportunità, le nuove funzionalità presentano anche dei rischi in particolare per la privacy, per cui OpenAI ha escluso dal modello la possibilità di porre domande circa foto di individui.
Come sempre, la tecnologia ci mette di fronte a sempre nuove sfide potenziali, che richiederanno attenzione e cura da parte di sviluppatori, regolatori ed esperti di cyberethics per poter essere di beneficio per gli utenti finali.