Von der Sprache zum Bild: KI macht sich unentbehrlich.

ChatGPT hat es in den letzten Wochen einer breiten Öffentlichkeit bewiesen: KI-Software ist zu einem extrem kompetenten, mächtigen und praktischen Sprachen-Tool geworden, das bereits von Millionen von Usern in verschiedensten Fachbereichen eingesetzt wird. Doch das GPT-3-Sprachmodell, entwickelt vom amerikanischen Forschungsunternehmen OpenAI kann noch viel mehr. Es ist auch die Basis des Text- und Bildgenerators Dall-E 2.

  #Unternehmen   #Künstliche Intelligenz  
Luca Bino
+41 58 263 22 29
luca.bino@umb.ch

Sie brauchen ein Gemälde von einem 1968 Ford Mustang – im expressionistischen Stil? Oder einfach die Fotografie eines grossen Server-Raumes in eindrücklichen Farben? Kein Problem: DALL-E 2 generiert die gewünschten Bilder in Sekunden[i]. DALL-E ist eine Variante des von OpenAI entwickelten GPT-3-Sprachmodells, das gerade dabei ist, sich weltweit einen Namen als KI-Massstab zu machen. Dem Programm zugrunde liegt die sogenannte Transformer-Architektur, eine Art neuronaler Netzarchitektur, die vor allem bei der Verarbeitung natürlicher Sprache eingesetzt wird – zum Beispiel bei der Sprachübersetzung oder der Texterstellung. Das Wissen des GPT-3-Modells besteht aus einer riesigen Menge an Internettexten, die das Programm aufgenommen hat. GPT-3 reagiert auf eine Eingabe mit einer Antwort, die eine Fortsetzung der Eingabeaufforderung, ein Bild oder eine Kombination aus beidem sein kann. Das Modell kann ausserdem zum Spezialisten für bestimmte Aufgaben gemacht werden – zum Beispiel für Übersetzungen, die Beantwortung von Fragen oder eben die Erzeugung von Bildern.

 

Grosse Datenmengen und komplexe Abhängigkeiten

DALL-E 2 funktioniert hervorragend zur Bilderzeugung, obwohl das KI-Tool gar kein Modell zur Bilderzeugung ist, sondern ein Sprachmodell, das auf der Grundlage der Eingabeaufforderung sowohl Bilder als auch Text erzeugen kann. Die Transformer-Architektur ist für diese Aufgabe besonders gut geeignet, da sie in der Lage ist, die grossen Datenmengen und die komplexen Abhängigkeiten zu bewältigen, die bei der Bilderzeugung gemeistert werden müssen. Es gibt auch reine Bildtransformationsmodelle, die speziell für die Bilderzeugung konzipiert sind. Auch diese Modelle verwenden eine Transformator-Architektur, um Bilder zu erzeugen, aber im Gegensatz zu DALL-E funktionieren sie nicht mit einer Beschreibung des gewünschten Bildes als Eingabe.

Semantische Segmentierung für Bild und Text

Ein Beispiel für ein reines Bildtransformationsmodell ist GPT für Bilder, bei dem das Modell auf einem riesigen Datensatz von Bildern trainiert wird, um die Bilddarstellung überhaupt zu verstehen. Anschliessend kann das Modell mit einem kleineren Datensatz für eine bestimmte Aufgabe, zum Beispiel Objekterkennung oder semantische Segmentierung, feinabgestimmt werden. Semantische Segmentierung ist ein Konzept, bei dem ein Bild in Segmente unterteilt wird, die bestimmte semantische Eigenschaften besitzen - beispielsweise Objekte, Hintergründe, Landschaften, Bäume, Personen oder Tiere. Das Konzept wird von GPT auch in der maschinellen Sprachverarbeitung angewandt: Texte werden in semantische Teile unterteilt, damit die Bedeutung des Textes erfasst werden kann.

 

Texte, Bilder, Musik, Programmiersprachen

DALL-E 2 wird in seiner Multifunktionalität bereits global genutzt, auch um neue Anwendungsfälle auszuprobieren – zum Beispiel die Komposition von Musik und die Entwicklung neuer Programmiersprachen. Neben DALL-E gibt es bereits zahlreiche Apps zur Bilderzeugung[ii], die Deep-Learning-Modelle verwenden. Das wirft auch Fragen zum Thema geistiges Eigentum auf. So hat kürzlich eine Gruppe von Künstlern eine Sammelklage gegen verschiedene Unternehmen, die Bildgeneratoren anbieten, eingereicht, weil durch die Nutzung von Milliarden von Internetbildern zum Trainieren von KI-Tools die Rechte von Millionen von Künstlern verletzt würden[iii]. OpenAI hat viele Trainingsdaten von Unternehmen wie Shutterstock kommerziell lizenziert und befindet sich nicht auf der Liste der beklagten Unternehmen.

Dieses Bild ist aus den Suchbegriffen "Gelbes Datencenter auf Mars" entstanden.

Azure for OpenAI - ChatGPT für Bing

DALL-E steht übrigens für «Demonstrated Attribute Logic Learned from Examples». Sowohl ChatGPT als auch DALL-E sind über die OpenAI-API verfügbar. Die Schnittstelle macht es den Entwicklern möglich, die Modelle in ihre Anwendungen zu integrieren. Das wichtigste Partnerunternehmen der OpenAI-Forscher ist Microsoft; der Software-Riese hat seit 2019 Milliarden Dollar in OpenAI investiert und gemäss Presseberichten werden gerade weitere zehn Milliarden flüssig gemacht. Azure ist der exklusive Cloud-Anbieter für OpenAI und soll für Kunden optimiert werden, die globale KI-Applikationen einsetzen[iv]. Ausserdem wird angenommen, dass Microsoft die immensen Fähigkeiten von ChatGPT schon bald nutzen wird, indem es den KI-Chatbot in seine Suchmaschine Bing integrieren wird[v].

 

[i] DALL·E 2 openai.com

[ii] 10 Best AI Art Generators

[iii] Artists file class-action lawsuit against AI image generator companies | Ars Technica

[iv] Microsoft investiert weitere Milliarden in OpenAI

[v] Is this Microsoft’s ChatGPT-powered Bing

Dieses Bild ist aus den Suchbegriffen "Zürichsee und Skyline von Zürich im Stil von Van Gogh" entstanden.

Chat GPT und GPT-3: Was KI kann

Ärzte, Anwälte, und Berater gehören zu den bestbezahlten Berufsleuten. Generative künstliche Intelligenz beweist heute schon, dass sie viele Aufgaben dieser Spezialisten übernehmen könnte – und teilweise bald übernehmen wird.

In den USA hat ein Forscherteam demonstriert, dass ChatGPT von OpenAI die strenge medizinische Zulassungsprüfung der Vereinigten Staaten bestehen kann[i]. Dabei handelt es sich um eine dreiteilige Prüfung, die in den USA von allen Absolventen eines Medizinstudiums verlangt wird, um die medizinische Zulassung zu erhalten . ChatGPT habe in seinen Erklärungen ein hohes Mass an Konsistenz und Einsicht bewiesen, gaben die Forscher bekannt. Die Forscher kamen zum Schluss, dass große Sprachmodelle wie ChatGPT das Potenzial hätten, bei der medizinischen Ausbildung und Entscheidungsfindung zu helfen. Es gebe bereits Kliniken, die damit begonnen hätten, mit ChatGPT zu experimentieren.

GPT3 kann nicht nur Medizin, sondern auch Management[ii]. Ein Professor an der angesehenen Wharton School of Business führte eine Studie durch, in der er GPT-3 (das Sprachmodell, auf dem ChatGPT basiert) für die Abschlussprüfung eines MBA-Kernkurses verwendete. Der Professor fand heraus, dass GPT-3 bei grundlegenden Fragen zur Betriebsführung und Prozessanalyse am besten abschneidet. Bei diesen Fragen liefere das KI-Modell sowohl richtige Antworten als auch hervorragende Erklärungen dazu.

Schliesslich hat das KI-Modell von OpenAI auch die Rechtswissenschaften knapp gemeistert[iii]: bei der Multiple-Choice-Komponente der Anwaltsprüfung (MBE) erzielte GPT-3.5 eine gut 50-prozentige Trefferquote und bestand die Prüfungen in den Fächern Beweisführung und Deliktsrecht. Die Anwaltsprüfung ist der Test, den Absolventen eines Jurastudiums bestehen müssen, um offiziell als Anwalt tätig zu sein. Sie besteht aus drei Teilen, wobei das MBE der erste ist.

 

[i] AI Bot ChatGPT Passes US Medical Licensing Exams

[ii] Would Chat GPT Get a Wharton MBA?

[iii] GPT Takes the Bar Exam