Coding mit KI

Ein neues Einsatzfeld, das durch die neueste Generation der generativen KI erschlossen wurde, ist das Coding (programmieren). So ist es beispielsweise möglich, dass ChatGPT auf Anfrage kleinere Code-Abschnitte programmiert, während Programme wie der GitHub Copilot KI-gestützte Assistenzsysteme darstellen, die während des Coding-Prozesses unterstützen und Codezeilen- oder abschnitte anbieten, die in den bestehenden Code eingefügt werden können. Die verschiedenen KI-Systeme werden vor allem zur Beschleunigung des Programmierens neuer Software genutzt, bergen jedoch wesentliche Haftungsrisiken.

KI und Open Source

Damit generative KI gute und präzise Ergebnisse liefern kann, muss diese zuvor mit enormen Datenmengen trainiert werden. Im Falle einer KI, die beim Coding unterstützen soll, muss diese zuvor also mit funktionierendem Code trainiert werden. Da es bei Code, der unter einer Open-Source Lizenz steht, oft Teil der Lizenzbedingungen ist, findet sich gerade dieser vermehrt frei verfügbar im Internet. Daher wird ein großer Teil der Trainingsdatensätze für Coding-KI auch aus solchem Code bestehen, der unter einer Open-Source Lizenz steht. Das Training einer KI mit Open-Source Code stellt dabei meist kein Problem dar, da dieses regelmäßig aufgrund des Ausnahmetatbestandes des § 44b UrhG zulässig sein dürfte. Aber auch hier gilt es die engen Grenzen der Ausnahmeregelung, insbesondere etwaige Nutzungsvorbehalte der Rechteinhaber zu beachten.

 

Die meisten urheberrechtlichen Probleme entstehen bei der Ausgabe von Ergebnissen durch die generative KI. Da es in der Informatik für Aufgaben und Probleme nur eine begrenzte Anzahl an Lösungen gibt, ist es äußerst wahrscheinlich, dass eine KI, die überwiegend mit Open-Source Code trainiert wurde, zur Lösung bestimmter Probleme auch in exakter Kopie diese Code-Zeilen und Abschnitte wieder ausgibt.

 

Bei restriktiven Open-Source Lizenzen, wie der sehr weit verbreiteten GPL 3.0 Lizenz, hat die Verwendung einzelner Code-Abschnitte, die unter der GPL 3.0 stehen, zur Folge, dass der gesamte Code unter dieselbe Lizenz, also GPL 3.0, zu stellen ist und damit das gesamte Werk zu Open-Source Code wird. Dies ist für den Nutzer der Coding-KI nicht offensichtlich. Zum einen, da die KI vor der Ausgabe des Codes keine Datenbankabfrage versendet, um herauszufinden, ob sich entsprechende Textzeilen bereits im Trainingsdatensatz befinden und ob diese unter einer bestimmten Open-Source Lizenz stehen – dies vor allem aus Gründen der Geschwindigkeit. Zum anderen, da davon ausgegangen wird, dass generative KI keine exakten Kopien aus Trainingsdatensätzen ausgibt. Diese ansonsten korrekte Grundannahme könnte durch die spezielle Funktionsweise der Coding-KI unterlaufen werden, mit verheerenden Rechtsfolgen.

Die versteckte Urheberrechtsverletzung

Durch diese versteckte Ausgabe von Open-Source-Code im Coding-Prozess greifen reihenweise unerwünschte rechtliche Folgen für die Nutzer von Coding-KI. Zunächst ist die Nutzung einer exakten Kopie von funktionellem Code urheberrechtlich relevant. Wo ansonsten neues, urheberrechtsfreies Material entsteht, können solche Ausgaben Vervielfältigungen im Sinne des Urheberrechts darstellen, da sie sich lediglich an den Werken eines anderen bedienen. Dies hat, wie bereits beschrieben, zur Folge, dass bei der Verwendung von Open-Source Software auch die entsprechenden Lizenzbedingungen greifen. Wer also (unbewusst) Code, der unter GPL 3.0 steht, in seinen bestehenden Code integriert, muss hiernach aufgrund des Copyleft-Effektes den Gesamten Code unter die Lizenz der GPL 3.0 stellen.

 

Noch komplexer wird es, wenn die KI verschiedene Codezeilen ausgibt, die ihrerseits unter verschiedenen Open-Source Lizenzen stehen. Aufgrund ihrer unterschiedlichen Ausgestaltung sind viele Open-Source Lizenzen nicht miteinander kompatibel. Ein Verstoß gegen diese Lizenzbedingungen kann zudem beachtliche Folgen haben. So werden Open-Source-Lizenzen von der deutschen Gerichtsbarkeit als verbindliche Nutzungsbedingungen anerkannt, deren Verstoß sämtliche Folgen einer Urheberrechtsverletzung auslöst. Diese reichen von dem Anspruch auf Auskunft über die Unterlassung bis hin zum Schadensersatz.

Die aktuelle Rechtslage

Die Ausgangsituation ist damit sowohl für Nutzer von Coding-KI als auch die Rechteinhaber ungünstig. Keine der beiden Gruppen erhält aktuell Kenntnis davon, wenn urheberrechtlich geschützter Code von einer KI ausgegeben wird, da aktuell schlichtweg kein Abgleich mit Trainingsdatensätzen gemacht wird. Die Rechte von Urhebern werden damit aktuell potentiell täglich tausendfach verletzt. Für diese potentiellen Rechtsverletzungen sind derzeit in letzter Konsequenz wohl die Nutzer der Coding-KI haftbar. Hiervor schützen könnten sie sich nur mit Individualvertraglichen Absicherungen mit den KI-Anbietern, was derzeit überaus unrealistisch erscheint.  Weiterhin dürfte es kaum im Interesse der Nutzer sein, dass sie ihren, größtenteils in Eigenarbeit programmierten Code nun unter eine Open-Source Lizenz stellen müssten.

Fazit

Coding KI bietet zahlreiche Möglichkeiten Arbeitsprozesse zu verschlanken und zu beschleunigen. Zeitgleich entstehen zahlreiche neue Haftungsrisiken, denen mit sorgfältiger Planung begegnet werden muss. Die Implementierung von Open-Source Software sollte grundsätzlich wohl durchdacht und kein zufälliges Ergebnis sein. Insbesondere sollten frühzeitig in diesem Bereich spezialisierte Juristen in den Implementierungsprozess eingebunden werden.

Können wir Sie bei Projekten im Bereich KI unterstützen?

Gerne stehen wir Ihnen zu einem ersten Gespräch zur Verfügung. Um einen Termin zu vereinbaren, kontaktieren Sie uns gern per E-Mail kontakt@recht-im-internet.de oder telefonisch unter 0511 374 98 150.