Dal linguaggio all’immagine: l’IA diventa indispensabile.

ChatGPT lo ha dimostrato ad un vasto pubblico nelle scorse settimane: il software IA è diventato uno strumento linguistico estremamente competente, potente e pratico che viene ormai impiegato da milioni di utenti nei più svariati settori. Ma il modello linguistico GPT-3, sviluppato dall’azienda di ricerca americana OpenAI è in grado di fare ancora molto di più. È anche la base del generatore di testi e immagini Dall-E 2.

  #Azienda   #Intelligenza Artificiale  
Luca Bino
+41 58 263 22 29
luca.bino@umb.ch

Avete bisogno di un ritratto di una Ford Mustang del 1968 in stile espressionista? Oppure semplicemente di una foto di un ampio vano che ospita server con colori suggestivi? Non c’è alcun problema: DALL-E 2 genera le immagini desiderate in pochi secondi[1]. DALL-E è una variante del modello linguistico GPT-3 sviluppato da OpenAI, che si sta facendo conoscere in tutto il mondo come come punto di riferimento per l'IA. Alla base del programma c’è la cosiddetta architettura transformer, un tipo di architettura di rete neurale, che viene soprattutto impiegata nell’elaborazione del linguaggio naturale – ad esempio nella traduzione linguistica o nella produzione di testi. Tutte le nozioni del modello GPT-3 consistono in un’enorme quantità di testi internet che il programma ha fatto propri. GPT-3 reagisce ad un inserimento con una risposta che può essere una prosecuzione del prompt dei comandi, un’immagine o una combinazione di entrambi gli elementi. Inoltre si può specializzare il modello per determinate mansioni – ad esempio per traduzioni, risposta a domande o generazione di immagini.

 

Grandi quantità di dati e dipendenze complesse

DALL-E 2 funziona in modo eccellente per la produzione di immagini, sebbene il tool della IA non sia affatto un modello concepito per questa funzione, bensì un modello linguistico che sulla base del prompt dei comandi può realizzare sia immagini che testi. L’architettura transformer si dimostra particolarmente idonea a svolgere questa mansione, poiché è in grado di gestire con successo le grandi quantità di dati e le complesse dipendenze che devono essere gestite nella produzione delle immagini. Ci sono anche puri e semplici modelli per la trasformazione delle immagini che sono stati concepiti specificatamente per la produzione delle immagini. Anche questi modelli utilizzano un’architettura transformer per produrre immagini, ma, al contrario di DALL-E,  non operano con una descrizione dell'immagine desiderata come input.

 

Azure for OpenAI - ChatGPT per Bing

DALL-E è tra l’altro l’acronimo di «Demonstrated Attribute Logic Learned from Examples»; sia ChatGPT che DALL-E sono disponibili via OpenAI-API. L’interfaccia permette agli sviluppatori di integrare i modelli nelle loro applicazioni. L’azienda partner più importante dei ricercatori di OpenAI è Microsoft; il gigante del software ha investito dal 2019 miliardi di dollari in OpenAI e secondo i comunicati stampa altri dieci miliardi sono in corso di liquidazione proprio in questi giorni. Azure è il fornitore esclusivo di cloud per OpenAI e deve essere ottimizzato per i clienti che utilizzano applicazioni globali di IA[4]. Inoltre si suppone che Microsoft sfrutterà già presto le immense capacità di ChatGPT, poiché integrerà il chatbot IA nel suo motore di ricerca Bing[5].

 

[1] DALL·E 2 openai.com

[2] 10 Best AI Art Generators

[3] Artists file class-action lawsuit against AI image generator companies | Ars Technica

[4] Microsoft investe altri miliardi in OpenAI

[5] Is this Microsoft’s ChatGPT-powered Bing

 

Questa immagine è stata creata con i termini di ricerca "Lago di Zurigo e skyline di Zurigo nello stile di Van Gogh".

Segmentazione semantica per le immagini e i testi

Un esempio di modello di pura trasformazione delle immagini è GPT per le immagini; in questo caso, il modello viene formato su un’enorme quantità di dati inerenti le immagini per poter comprendere la rappresentazione stessa dell’immagine. Successivamente il modello può essere messo a punto in modo ancora più specifico con una serie di dati più ridotta per svolgere una determinata mansione, ad esempio per il riconoscimento di un oggetto oppure per la segmentazione semantica. La segmentazione semantica è un concetto secondo il quale un’immagine viene suddivisa in segmenti che possiedono determinate caratteristiche semantiche – per esempio oggetti, sfondi, paesaggi, alberi, persone o animali. Il concetto viene applicato da GPT anche nell’elaborazione del linguaggio naturale: i testi vengono suddivisi in parti semantiche affinché possa essere colto il significato del testo.

 

Testi, immagini, musica, linguaggi di programmazione

DALL-E 2 viene già utilizzato a livello globale nella sua multifunzionalità, anche per sperimentare nuove applicazioni – ad esempio la composizione di musica e lo sviluppo di nuovi linguaggi di programmazione. Oltre a DALL-E esistono già numerose app per produrre immagini[2] che utilizzano i modelli di deep learning. Questo solleva anche domande sul tema della proprietà intellettuale. Infatti un gruppo di artisti ha ad esempio intentato di recente un’azione legale collettiva contro diverse aziende che offrono generatori di immagini, poiché utilizzare miliardi di immagini internet per formare i tool di IA può significare violare i diritti di milioni di artisti[3]. OpenAI ha ottenuto in licenza molti dati training di aziende come Shutterstock e non si trova nell’elenco delle aziende citate in giudizio.

Questa immagine è stata creata con i termini di ricerca "Centro dati giallo su Marte".

Chat GPT e GPT-3: quello che può fare l’IA è sorprendente

Medici, avvocati e consulenti appartengono alla categoria dei professionisti più pagati. L’intelligenza artificiale generativa sta già dimostrando che potrebbe svolgere molte mansioni di questi specialisti; e di fatto questa sarà presto una realtà.

Negli Stai Uniti un gruppo di ricercatori ha dimostrato che ChatGPT di OpenAI può superare con successo il severo esame d’ammissione di medicina vigente negli Stati Uniti[i]. Nella fattispecie si tratta di un test suddiviso in tre parti richiesto a tutti i laureati in studi medici negli Stati Uniti per l’ammissione alla scuola di medicina. Secondo i ricercatori, ChatGPT ha dimostrato un alto grado di consistenza e di perspicacia nelle sue spiegazioni. I ricercatori hanno concluso che ChatGPT ha il potenziale per aiutare la formazione medica e i processi decisionali e affermano che esistono già cliniche che hanno iniziato a sperimentare ChatGPT.

GPT3 può occuparsi non solo di medicina, ma anche di management[ii]. Un professore della prestigiosa Wharton School of Business ha condotto uno studio in cui ha utilizzato GPT-3 (il modello linguistico su cui si basa ChatGPT) per l’esame finale di un corso di base MBA. Il professore ha scoperto che GPT-3 dà ottimi risultati rispondendo a domande basilari sulla gestione aziendale e l’analisi dei processi. Alle domande in questione il modello IA ha fornito non solo risposte giuste, ma ha anche dato spiegazioni eccellenti.

Infine il modello IA di OpenAI è riuscito anche a padroneggiare un po’ la giurisprudenza[iii]: nella componente a scelta multipla dell’esame di abilitazione alla professione di avvocato (MBE) GPT-3.5 ha raggiunto una percentuale di successo del 50% e ha superato gli esami in materia di prove e diritto della responsabilità civile. L’esame di avvocatura è il test che i laureati in giurisprudenza devono superare per poter esercitare ufficialmente la professione di avvocato. Consiste in tre parti, di cui la prima è l’MBE.

 

[i]AI Bot ChatGPT Passes US Medical Licensing Exams

[ii]Would Chat GPT Get a Wharton MBA?

[iii]GPT Takes the Bar Exa