De la langue à l’image : l’IA se rend indispensable

Ces dernières semaines, ChatGPT l’a prouvé à un large public : les logiciels d’IA sont devenus des outils linguistiques extrêmement compétents, puissants et pratiques, utilisés déjà par des millions d’utilisateurs dans divers domaines. Mais le modèle de langage GPT-3, développé par la société de recherche américaine OpenAI, peut faire encore beaucoup plus de choses. En effet, il est également la base du générateur de textes et d’images Dall-E 2.

  #Entreprise   #Intelligence Artificielle  
Luca Bino
+41 58 263 22 29
luca.bino@umb.ch

Il vous faut une peinture d’une Ford Mustang de 1968, dans un style expressionniste ? Ou simplement une photo d’une grande salle de serveurs, dans des couleurs impressionnantes ? Pas de problème : DALL-E 2 génère les images souhaitées en quelques secondes[i]. Variante du modèle de langage GPT-3 développé par OpenAI, DALL-E est en train de se faire connaître comme référence en matière d’IA dans le monde entier. Le programme est basé sur l’architecture « transformateur », un genre d’architecture de réseau neuronal qui est principalement utilisé dans le traitement du langage naturel, par exemple dans la traduction ou la création de textes. Le savoir du modèle GPT-3 est constitué d’une énorme quantité de textes issus d’Internet, que le programme a absorbés. GPT-3 réagit à une entrée par une réponse qui peut être une suite de l’invite de commande, une image ou une combinaison des deux. Le modèle peut également être adapté spécialement pour exécuter certaines tâches, par exemple traduire des textes, répondre à des questions ou justement produire des images.

 

Grands volumes de données et dépendances complexes

DALL-E 2 fonctionne à merveille pour générer des images, bien que cet outil d’IA ne soit pas du tout un modèle de production d’images, mais un modèle de langage capable de générer, selon l’invite de commande, aussi bien des images que du texte. L’architecture transformateur convient particulièrement bien à cette tâche, car elle est en mesure de gérer les grandes quantités de données et les dépendances complexes qui doivent être maîtrisées lors de la production d’images. Il existe également de purs modèles de transformation d’image, spécialement conçus pour générer des images. Ces modèles utilisent également une architecture transformateur pour produire des images, mais contrairement à DALL-E, ils ne fonctionnent pas avec la saisie d’une description de l’image souhaitée.

Azure pour OpenAI – ChatGPT pour Bing

DALL-E est l’acronyme de « Demonstrated Attribute Logic Learned from Examples ». Tant ChatGPT que DALL-E sont disponibles par le biais de l’API d’OpenAI. Cette interface permet aux développeurs d’intégrer les modèles dans leurs applications. La principale société partenaire des chercheurs d’OpenAI est Microsoft ; depuis 2019, le géant du logiciel a investi des milliards de dollars dans OpenAI et serait, selon des articles de presse, en train de débloquer dix milliards de dollars supplémentaires. Azure est le fournisseur de cloud exclusif pour OpenAI et doit être optimisé pour les clients qui utilisent des applications d’IA globales[v]. De plus, on suppose que Microsoft utilisera déjà bientôt les immenses capacités de ChatGPT, en intégrant le chatbot d’IA dans son moteur de recherche Bing[iv].

 

[i] DALL·E 2 openai.com

[ii] 10 Best AI Art Generators

[iii] Artists file class-action lawsuit against AI image generator companies | Ars Technica

[iv] Microsoft investiert weitere Milliarden in OpenAI

[v] Is this Microsoft’s ChatGPT-powered Bing?

 

Cette image a été créée à partir des termes de recherche "Lac de Zurich et skyline de Zurich dans le style de Van Gogh".

Segmentation sémantique pour images et textes

Un exemple d’un pur modèle de transformation d’image est un GPT pour images, où le modèle est entraîné avec un énorme ensemble de données d’images pour déjà simplement comprendre la représentation d’images. Ensuite, le modèle peut être affiné avec un ensemble de données plus petit pour exécuter une tâche spécifique, par exemple la reconnaissance d’objets ou la segmentation sémantique. La segmentation sémantique est un concept qui sert à diviser une image en segments possédant certaines propriétés sémantiques, par exemple des objets, des arrière-plans, des paysages, des arbres, des personnes ou des animaux. Ce concept est également utilisé par le GPT dans le traitement automatique des langues : les textes sont subdivisés en éléments sémantiques afin que le sens du texte puisse être saisi.

 

Textes, images, musique, langage de programmation

Dans sa multifonctionnalité, DALL-E 2 est déjà utilisé dans le monde entier pour essayer également de nouveaux cas d’application, par exemple la composition musicale et le développement de nouveaux langages de programmation. En plus de DALL-E, il existe déjà de nombreuses applications de création d’images[ii] qui utilisent des modèles de Deep Learning. Cela soulève aussi des questions relatives à la propriété intellectuelle. Ainsi, un groupe d’artistes a récemment engagé une action collective contre diverses entreprises qui proposent des générateurs d’images, parce que l’utilisation de milliards d’images issus d’Internet pour entraîner les outils d’IA violerait les droits de millions d’artistes[iii]. OpenAI a conclu des accords de licence commerciale pour une grande quantité de données d’entraînement d’entreprises, telles que Shutterstock, et ne figure pas sur la liste des entreprises défenderesses.

Cette image a été créée à partir des termes de recherche "centre de données jaune sur Mars".

ChatGPT et GPT-3 : ce que l’IA est en mesure de faire

Les médecins, les avocats et les consultants font partie des professionnels les mieux payés. L’intelligence artificielle générative prouve aujourd’hui déjà qu’elle pourrait exécuter de nombreuses tâches de ces spécialistes – et qu’elle le fera bientôt, du moins en partie.

Aux États-Unis, une équipe de chercheurs a démontré que ChatGPT d’OpenAI peut passer le difficile examen de licence médicale[i] des États-Unis. Il s’agit d’un examen en trois parties, exigé aux États-Unis de tous les étudiants en médecine pour obtenir l’autorisation d’exercer la médecine. Selon les chercheurs, ChatGPT a fait preuve d’un haut degré de cohérence et de discernement dans ses explications. Les chercheurs sont arrivés à la conclusion que les grands modèles de langage, tels que ChatGPT, auraient le potentiel d’aider dans la formation médicale et dans la prise de décisions. Il existerait déjà des cliniques qui ont commencé à expérimenter avec ChatGPT.

Or, GPT-3 dispose non seulement du savoir-faire en médecine, mais également en management[ii]. Un professeur de la prestigieuse Wharton School of Business a mené une étude dans laquelle il a utilisé GPT-3 (modèle de langage utilisé par ChatGPT) pour passer l’examen final d’un cours de base de MBA. Ce professeur a constaté que GPT-3 fournissait les meilleurs résultats pour les questions de base liées à la gestion d’entreprise et à l’analyse des processus. Pour ces questions, le modèle d’IA a donné non seulement des réponses correctes, mais également d’excellentes explications.

En plus, le modèle IA d’OpenAI a également réussi de justesse des examens d’une faculté de droit[iii] : dans la partie de l’examen du barreau (MBE) contenant des questions à choix multiples, GPT-3.5 a obtenu un peu plus de 50 % des points, et a passé avec succès les examens dans les domaines des preuves et du droit des délits. L’examen du barreau est le test que les étudiants en droit doivent réussir afin de pouvoir exercer officiellement la profession d’avocat. Il est composé de trois épreuves, la première étant le MBE.

 

[i]AI Bot ChatGPT Passes US Medical Licensing Exams

[ii]Would Chat GPT Get a Wharton MBA?

[iii]GPT Takes the Bar Exa