Schutz vor KI-Training

Technische Schutzmaßnahmen: So schützen Sie Ihre Inhalte

Angesichts der rechtlichen Unsicherheiten empfiehlt sich eine mehrstufige Schutzstrategie, die verschiedene technische und rechtliche Mechanismen kombiniert. Im Folgenden stellen wir die wichtigsten Instrumente vor.

1. Nutzungsvorbehalt im Impressum und in den AGB

Die einfachste und verbreitetste Maßnahme ist die Aufnahme eines ausdrücklichen Nutzungsvorbehalts in das Impressum oder die AGB der Website. Zahlreiche große Verlage – darunter die FAZ, die Süddeutsche Zeitung und der Heise Verlag – haben entsprechende Passagen implementiert. Eine mögliche Formulierung lautet:

„[Firmenname] behält sich die Nutzung sämtlicher Inhalte dieser Website für kommerzielles Text und Data Mining im Sinne von § 44b UrhG ausdrücklich vor. Eine Vervielfältigung oder Nutzung der Inhalte zum Zwecke des Trainings von Künstlicher Intelligenz oder vergleichbarer Technologien ist ohne vorherige schriftliche Zustimmung untersagt. Für den Erwerb einer entsprechenden Nutzungslizenz wenden Sie sich bitte an [Kontaktadresse]."

Bewertung: Ob ein reiner Text im Impressum das Maschinenlesbarkeitserfordernis des § 44b Abs. 3 UrhG erfüllt, ist rechtlich umstritten. Die Gesetzesbegründung legt nahe, dass dies möglich ist, das OLG Hamburg hat die Frage für die Gegenwart allerdings offengelassen. Als alleinige Maßnahme ist der Impressumsvorbehalt daher riskant – als Baustein einer Gesamtstrategie jedoch unverzichtbar, da er in jedem Fall den ausdrücklichen Willen des Rechteinhabers dokumentiert.

2. robots.txt: Crawler-Steuerung auf Serverebene

Die robots.txt-Datei ist das seit Jahrzehnten etablierte Instrument zur Kommunikation mit Webcrawlern. Sie wird im Stammverzeichnis der Website abgelegt und teilt Crawlern über User-Agent-Direktiven mit, welche Bereiche sie aufrufen dürfen und welche nicht. Die großen KI-Unternehmen haben eigene User-Agents für ihre Trainings-Crawler veröffentlicht, die über robots.txt gezielt blockiert werden können.

Die wichtigsten KI-Trainings-Crawler und ihre User-Agents sind derzeit:

GPTBot (OpenAI) – Haupt-Trainings-Crawler für GPT-Modelle
ChatGPT-User (OpenAI) – für Echtzeitabrufe innerhalb von ChatGPT
ClaudeBot / anthropic-ai (Anthropic) – Trainings-Crawler für Claude
Google-Extended (Google) – Training von Gemini und anderen Google-KI-Modellen
CCBot (Common Crawl) – offener Datensatz, auf dem viele KI-Modelle basieren
Meta-ExternalAgent (Meta) – Training von LLaMA und Meta AI
Bytespider (ByteDance) – Training von ByteDance-KI-Modellen
Applebot-Extended (Apple) – Training für Apple Intelligence
PerplexityBot (Perplexity) – Datensammlung für KI-Suche

Eine robots.txt-Konfiguration, die KI-Trainings-Crawler blockiert, dabei aber klassische Suchmaschinen-Crawler unberührt lässt, könnte beispielsweise so aussehen:

# Suchmaschinen-Crawler weiterhin erlauben
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

# KI-Trainings-Crawler blockieren
User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: ClaudeBot
Disallow: /

Bewertung: Die robots.txt ist ein niedrigschwelliges und sofort wirksames Instrument. Große KI-Anbieter wie OpenAI, Anthropic und Google geben an, robots.txt-Direktiven zu respektieren. Es gibt jedoch keine technische Garantie für die Einhaltung – robots.txt ist eine Konvention, kein Zugangsschutz. Zudem ist die Liste der KI-Crawler ständig im Fluss; neue Anbieter und neue User-Agents entstehen laufend. Eine regelmäßige Aktualisierung und die Überwachung der Server-Logs sind daher erforderlich. Seit Juli 2025 blockiert der CDN-Anbieter Cloudflare KI-Bots standardmäßig und bietet zudem ein „Pay per Crawl"-Programm an, mit dem Webseitenbetreiber KI-Unternehmen für den Zugriff zur Kasse bitten können.

Rechtlich ist die robots.txt als maschinenlesbarer Ausdruck des Nutzungsvorbehalts im Sinne des § 44b Abs. 3 UrhG zu qualifizieren – auch wenn das Gesetz dies nicht ausdrücklich vorsieht und der zugrunde liegende Robots Exclusion Standard ursprünglich nicht für diesen Zweck entwickelt wurde.

3. Das TDM Reservation Protocol (TDMRep) des W3C

Das vom World Wide Web Consortium (W3C) entwickelte TDM Reservation Protocol ist die bislang spezifischste technische Antwort auf die Anforderungen der DSM-Richtlinie und des § 44b UrhG. Es definiert ein einfaches Modell mit zwei Eigenschaften: tdm-reservation (Angabe, ob TDM-Rechte vorbehalten sind) und tdm-policy (Verweis auf eine maschinenlesbare Lizenzierungsrichtlinie im ODRL-Format).

Die Implementierung kann auf drei Wegen erfolgen:

a) Serverbasiert über die Datei /.well-known/tdmrep.json: Analog zur robots.txt wird eine JSON-Datei im Stammverzeichnis des Servers abgelegt, die den Vorbehalt für bestimmte URL-Pfade deklariert. Ein minimales Beispiel:

json

{
  "policies": [
    {
      "location": "/",
      "tdm-reservation": 1,
      "tdm-policy": "https://www.example.de/tdm-policy.json"
    }
  ]
}

b) Über HTTP-Header: Der Vorbehalt kann in den HTTP-Response-Header der Serverantwort integriert werden.

c) Über HTML-Meta-Tags: Entsprechende Meta-Tags können im <head>-Bereich einzelner HTML-Seiten platziert werden.

Bewertung: Das TDMRep-Protokoll ist die derzeit technisch sauberste Umsetzung eines maschinenlesbaren Nutzungsvorbehalts im Sinne des § 44b Abs. 3 UrhG. Es wird bereits von zahlreichen europäischen Verlagen eingesetzt und durch den europäischen Verlegerverband FEP aktiv gefördert. Die praktische Akzeptanz durch KI-Unternehmen steht allerdings noch am Anfang; eine indirekte Umsetzung erfolgt über Intermediäre wie Spawning AI. Der Implementierungsaufwand ist gering, und angesichts der unklaren Rechtslage zur Maschinenlesbarkeit empfiehlt sich die Nutzung in jedem Fall als ergänzende Absicherung.

4. Meta-Tags und HTML-basierte Signale

Neben dem TDMRep-Protokoll existieren weitere HTML-basierte Möglichkeiten, einen Nutzungsvorbehalt zu signalisieren. Die Plattform DeviantArt hat etwa „noai"- und „noimageai"-Meta-Tags eingeführt, die sich im <head>-Bereich von HTML-Seiten einbetten lassen:

html

<meta name="robots" content="noai, noimageai">

Diese Tags werden von einigen KI-Crawlern bereits beachtet, ein verbindlicher Standard hat sich hieraus bislang allerdings nicht entwickelt. Als zusätzliches Signal im Rahmen einer Gesamtstrategie sind sie dennoch empfehlenswert.

5. Schutz auf Dateiebene: IPTC-Metadaten für Bilder

Für Fotografen und Bildagenturen ist der asset-basierte Schutz besonders relevant, da Bilder häufig außerhalb des Kontexts der Ursprungswebsite zirkulieren und ein rein standortbasierter Vorbehalt (robots.txt, Impressum) dann ins Leere geht. Der IPTC-Standard (International Press Telecommunications Council) wurde 2023 um ein spezifisches Feld „Data Mining" erweitert, in dem der Nutzungsvorbehalt direkt in die Metadaten der Bilddatei eingebettet werden kann. Der PLUS-Standard (Picture Licensing Universal System) stellt hierfür den Wert DMI-PROHIBITED-AIMLTRAINING bereit.

Diese in die Bilddatei eingebettete Information begleitet das Werk unabhängig davon, auf welcher Website oder Plattform es erscheint – sofern die Metadaten nicht entfernt werden. Ergänzend bietet Adobe mit den Content Credentials (basierend auf dem C2PA-Standard) eine Lösung an, bei der Urheber- und Nutzungsinformationen sowohl in die Datei eingebettet als auch in einer Cloud-Datenbank gespeichert werden.

Bewertung: Der asset-basierte Schutz über IPTC-Metadaten ist für Bildinhalte die derzeit verlässlichste Methode, einen Nutzungsvorbehalt unmittelbar mit dem Werk zu verknüpfen. Die Einbettung ist mit gängigen Bildbearbeitungsprogrammen und Tools wie ExifTool möglich. Die praktische Durchsetzbarkeit hängt davon ab, ob KI-Anbieter die IPTC-Daten auslesen und respektieren – hierzu verpflichtet sie der AI Act ab August 2025 zumindest grundsätzlich.

6. Technische Zugangsbarrieren

Über die genannten Signallösungen hinaus können Webseitenbetreiber den Zugang auch technisch erschweren oder verhindern. Dazu gehören IP-basierte Sperren (etwa der veröffentlichten IP-Bereiche von OpenAI oder Anthropic), Rate Limiting, CAPTCHA-Systeme, Web Application Firewalls (WAF) sowie die Nutzung von Bot-Management-Lösungen. Diese Maßnahmen gehen über den urheberrechtlichen Nutzungsvorbehalt hinaus und wirken auf der rein technischen Ebene.

Warum Heidrich Rechtsanwälte?

Die Kanzlei Heidrich Rechtsanwälte steht für die Symbiose aus langjähriger juristischer Exzellenz und tiefem technologischem Verständnis. Die Mandatierung unserer Kanzlei im Bereich des KI-Urheberrechts bietet Ihnen entscheidende Vorteile:

Spezialisierte Expertise: Als Fachanwalt für IT-Recht und zertifizierter KI-Manager verbindet Joerg Heidrich die juristische Dogmatik mit der technologischen Realität. Unsere Beratung basiert auf der täglichen Praxis in komplexen Verfahren an der Schnittstelle von Technologie und Recht.
Wissenschaftliche Fundierung: Durch regelmäßige Publikationen in führenden Fachmedien (u.a. c't, heise online) und die Autorenschaft von Standardwerken zum KI-Recht sind wir aktiv an der Gestaltung der juristischen Debatte beteiligt. Wir beraten nicht nur nach dem Gesetz, sondern antizipieren die künftige Rechtsentwicklung.
Praxisnahe Lösungen: Über den Rechtspodcast „Auslegungssache“ und unsere Vortragstätigkeit stehen wir im ständigen Austausch mit der Industrie und den Regulierungsbehörden. Wir kennen die Herausforderungen, vor denen Unternehmen bei der Implementierung von KI stehen, und bieten keine theoretischen Abhandlungen, sondern rechtssichere Handlungsanweisungen.
Ganzheitlicher Ansatz: Wir betrachten das Urheberrecht nicht isoliert, sondern integrieren Fragen des Datenschutzes (DSGVO), der Geschäftsgeheimnisse und der Vorgaben des EU AI Acts in ein konsistentes Gesamtkonzept für Ihr Unternehmen.

Schutz vor KI-Training