Was ist KI?
Die Liste mit Anbietern generativer KI ist lang und wird jeden Tag umfangreicher. Hinzu kommt, dass auch ständig neue Bereiche erschlossen werden, in denen KI überragende neue Fähigkeiten erlangt. Hierzu gehören zum Beispiel neue Entwicklungen im Bereich Video, Sprache oder Musik.
Die derzeit wohl wichtigsten Angebote im Bereich Text und Bild dürften derzeit folgende sein:
- Text: ChatGPT (OpenAI)
- Text: Bard (Google)
- Bild: Midjourney
- Bild: Stable Diffusion
- Bild: DALL-E 2
WIE FUNKTIONIERT GENERATIVE KI?
Generative KI-Angebote zur Erzeugung von Texten oder Bildern wie Bard, Midjourney, Dall-E oder Stable Diffusion sind aus unserem Alltag nur noch schwer wegzudenken. Doch wie funktioniert eigentlich KI? Dies wollen wir uns nachfolgend am Beispiel von ChatGPT einmal aus technischer Sicht anschauen.
ChatGPT basiert auf der Generative Pre-trained Transformer-Architektur, kurz GPT-Architektur, die wiederum auf der Transformer-Architektur aufbaut. Um ein tieferes Verständnis über ChatGPT zu vermitteln, gehen wir nachfolgend auf die Schlüsselkonzepte und Komponenten ein:
Die Transformer-Architektur
Die Transformer-Architektur wurde 2017 eingeführt und hat die Art und Weise, wie sequenzielle Daten in neuronalen Netzwerken verarbeitet werden, revolutioniert. Der Transformer verwendet den sogenannten „SelfAttention“-Mechanismus, um Beziehungen zwischen Wörtern in einem Text effizient zu erfassen. Dieser Mechanismus erlaubt es dem Modell, alle Eingabewörter eines Prompts gleichzeitig zu betrachten. Der Begriff „prompt“ stammt aus dem Englischen und meint ursprünglich vor allem eine klassische „Eingabeaufforderung“, bspw. die der DOS-Eingabeaufforderung. Im Kontext von (generativen) KI-Systemen – wie bspw. ChatGPT oder Midjourney– wird damit die (beschreibende) Eingabe des Benutzers bezeichnet, zu dem das System dann einen passenden Output erzeugt. Alle im Rahmen des Prompts eingegeben Wörter werden umgesetzt und effizient verarbeitet.
Um dies zu erreichen, berechnet der Self-Attention-Mechanismus Ähnlichkeiten zwischen den Eingabewörtern und ermittelt, wie wichtig ein Wort für ein anderes ist. Diese Gewichtungen werden dann zur Modifikation des Prompts verwendet, um eine bessere Repräsentation des Kontextes zu erhalten. Um Texteingaben zu verarbeiten, zerlegt ChatGPT den Text in kleinere Einheiten, sogenannte Token.
Diese Token repräsentieren Wörter oder Teilwörter. Die „Tokenisierung“ erfolgt durch Byte-Pair-Encoding (BPE), welches einen Kompromiss zwischen der Abdeckung seltener Wörter und der Länge der Vokabelliste bieten.
Training der KI
ChatGPT wird in zwei Phasen trainiert: Pre-Training und Fine-Tuning. Während der Pre-Training-Phase wird das Modell auf große Textdatenmengen trainiert, um die Struktur, Grammatik und den Zusammenhang von Wörtern und Sätzen zu erfassen. In dieser Phase wird das Modell als Sprachmodell trainiert, bei dem es versucht, das nächste Wort in einer Sequenz vorherzusagen. Im Fine-Tuning wird das Modell auf spezifischere Aufgaben angepasst, indem es mithilfe kleinerer, zielgerichteter Datensätze trainiert wird. Diese Datensätze enthalten häufig menschliche Dialoge oder Frage-Antwort-Paare, die dem Modell beibringen, wie es auf bestimmte Benutzeranfragen oder Aufgaben reagieren soll.
Bei der Generierung von Antworten verwendet ChatGPT den trainierten Kontext und das gelernte Wissen, um Wort für Wort Antworten zu erzeugen. Dieser Prozess basiert auf der Wahrscheinlichkeitsverteilung über alle möglichen Wörter, die das Modell erlernt hat. Die Antwortgenerierung kann auf verschiedene Weise gesteuert werden, z. B. durch die Verwendung von so genannten Temperaturen: Die Temperatur ist ein Hyperparameter, der zur Verarbeitung natürlicher Sprache verwendet wird, um den Grad der Zufälligkeit oder „Kreativität“ im generierten Text zu steuern. Höhere Temperaturen führen zu einer vielfältigeren und unvorhersehbareren Ausgabe. Umgekehrt führen niedrigere Temperaturen zu einer konservativeren und vorhersehbaren Ausgabe.
Die Daten, die für das Training von ChatGPT verwendet werden, stammen aus einer Vielzahl von Quellen, darunter Bücher, Artikel, Websites und menschliche Dialoge. Die genauen Datenquellen sind nicht öffentlich und werden von den Entwicklern sorgfältig ausgewählt und aufbereitet, um sicherzustellen, dass das Modell ein breites Spektrum an Themen und Stilen abdeckt. Da die Trainingsdaten aus dem Internet stammen, können sie jedoch auch Verzerrungen und Voreingenommenheit (engl.: „bias“) enthalten, die sich auf das Verhalten des Modells auswirken können.
ChatGPT besteht aus mehreren Schichten von Transformer-Blöcken, die jeweils mehrere „Attention Heads“ enthalten. Jeder Attention Head fokussiert unterschiedliche Aspekte des Kontexts innerhalb des Eingabetextes. Diese mehrschichtige Architektur ermöglicht es dem Modell, eine tiefere und komplexere Repräsentation der Eingabedaten zu erlernen.
Können wir Sie im Bereich KI unterstützen?
Gerne stehen wir Ihnen für ein Erstgespräch zur Verfügung. Um einen Beratungstermin zu vereinbaren, kontaktieren Sie uns gern per E-Mail unter kontakt@recht-im-internet.de oder telefonisch unter 0511 374 98 150. Weitere Informationen finden Sie auf unserer Kanzlei-Website recht-im-internet.de sowie auf unserem Blog netzrechtliches.de.