Wir machen Webseiten seit über 20 Jahren — und die Frage, ob man Suchmaschinen-Crawler in die eigene Seite lässt, war eigentlich nie eine. Googlebot rein, fertig. 2026 ist das anders. Auf einmal stehen ein Dutzend Bots vor der Tür, die nicht mehr nur indexieren, sondern Inhalte abgreifen, um damit Sprachmodelle zu trainieren oder direkte Antworten zu generieren — ohne dass jemand jemals deine Seite besucht. Wer pauschal alles sperrt, verschwindet aus ChatGPT, Perplexity und den AI Overviews. Wer pauschal alles zulässt, liefert kostenlos Trainingsmaterial. Beide Pole sind falsch. In diesem Artikel zeigen wir, welche Bots aktuell wirklich relevant sind, was sie unterscheidet — und wie wir das in Kundenprojekten zwischen Mannheim, Heidelberg und der gesamten Metropolregion Rhein-Neckar handhaben.

Warum die Frage 2026 plötzlich ernst geworden ist

Bis vor zwei, drei Jahren war "AI-Crawler" ein Nischenthema für große Verlage. Heute ist es Mainstream:

Google AI Overviews zitieren und verlinken Quellen direkt im Suchergebnis. Wer da nicht auftaucht, verliert Sichtbarkeit, selbst wenn die organische Position 1 gehalten wird.
ChatGPT Search, Perplexity und Claude beantworten Fragen mit Quellenangaben. Diese Quellen werden über User-Agent-Crawler in Echtzeit abgeholt — wer den Crawler blockiert, wird nicht zitiert.
Gleichzeitig laufen die Trainings-Crawler im Hintergrund weiter und sammeln Inhalte für die nächsten Modellgenerationen. Das ist der Punkt, an dem viele Website-Betreiber zu Recht zögern.

Die entscheidende Erkenntnis vorweg: Es gibt nicht "den" AI-Bot. Es gibt zwei sehr unterschiedliche Kategorien, und die werfen viele Anleitungen im Netz wild durcheinander.

Die zwei Arten von AI-Crawlern (das ist der wichtigste Punkt)

Training-Crawler sammeln systematisch Webinhalte, um damit später ein Sprachmodell zu trainieren. Sie laufen kontinuierlich im Hintergrund. Beispiele: GPTBot, ClaudeBot, CCBot, Google-Extended, Applebot-Extended.

User-Agent-Crawler rufen eine Seite genau dann ab, wenn ein Mensch in ChatGPT, Perplexity oder einem ähnlichen Tool eine Frage stellt, deren Antwort eine konkrete URL erfordert. Sie sind quasi der "Browser" der KI im Auftrag des Nutzers. Beispiele: ChatGPT-User, Claude-User, OAI-SearchBot, PerplexityBot.

Wenn du nur die Training-Crawler sperrst, sagst du: "Trainiert nicht mit meinen Inhalten — aber zitiert mich gerne in Antworten." Wenn du auch die User-Crawler sperrst, sagst du: "Erwähnt mich nirgendwo, ich existiere für eure Nutzer nicht." Das ist ein Riesenunterschied.

Die wichtigsten AI-Crawler 2026 im Überblick

Bot (User-Agent)	Betreiber	Zweck	Auswirkung beim Sperren
GPTBot	OpenAI	Training	Inhalte fließen nicht in zukünftige GPT-Modelle
OAI-SearchBot	OpenAI	ChatGPT Search Index	Du erscheinst nicht in ChatGPT-Search-Antworten
ChatGPT-User	OpenAI	Live-Abruf für Nutzeranfrage	ChatGPT kann deine Seite nicht zitieren
ClaudeBot	Anthropic	Training	Kein Beitrag zu Claude-Modellen
Claude-User	Anthropic	Live-Abruf für Nutzeranfrage	Claude liest deine Seite nicht für User
Claude-SearchBot	Anthropic	Claude-Search-Index	Du erscheinst nicht in Claude-Search-Antworten
CCBot	Common Crawl	Offener Trainings-Index	Kein Eingang in viele Open-Source-LLMs
PerplexityBot	Perplexity AI	Search-Index für Citations	Du wirst in Perplexity nicht zitiert
Perplexity-User	Perplexity AI	Live-Abruf für Nutzeranfrage	Perplexity kann deine Seite nicht abrufen wenn ein Nutzer fragt
Google-Extended	Google	Gemini-Training	Kein Training, aber Google-Suche bleibt unberührt
Applebot-Extended	Apple	Apple Intelligence Training	Kein Training, normaler Applebot bleibt unberührt
Bytespider	ByteDance / TikTok	Training (u.a. Doubao)	Kein Eingang in chinesische LLMs
Diffbot / Amazonbot	Diffbot, Amazon	Strukturierte Daten / Alexa, Trainings-Beistück	Marginal für die meisten KMU

Wichtig zu wissen: Google-Extended und Applebot-Extended wurden bewusst eingeführt, um eine getrennte Entscheidung zu ermöglichen. Du kannst Googlebot (klassische Suche) erlauben und Google-Extended (Gemini-Training) sperren — Google hat zugesichert, dass das die Suchplatzierung nicht beeinflusst. Bei Apple ist es genauso strukturiert.

Was robots.txt wirklich kann — und was nicht

Bevor wir zu den Snippets kommen, eine ehrliche Einordnung. Die robots.txt ist eine Höflichkeitsbitte, kein technischer Schutz — und gleichzeitig die Datei, an der jede Indexierungs-Strategie hängt. Wer hier unsauber arbeitet, riskiert genau die Sichtbarkeitsverluste, vor denen wir in unserer 12-Punkte-Relaunch-Checkliste ausführlich warnen. Wir sehen das in den Logs unserer Kunden regelmäßig:

Seriöse Anbieter (OpenAI, Anthropic, Google, Apple, Perplexity) halten sich an die Direktiven.
Bytespider (ByteDance) wird in mehreren unabhängigen Berichten beim Ignorieren der robots.txt beobachtet. Auch Perplexitys nutzergetriggerter Crawler stand 2024 in der Kritik (Wired-Recherche), die Direktiven nicht konsequent zu befolgen.
Reine Datenscraper, die sich als normaler Browser ausgeben, kümmern sich grundsätzlich nicht um robots.txt.

Wer hart sperren will, braucht zusätzlich:

WAF-Regeln (Cloudflare bietet seit 2024 einen "Block AI Bots"-Toggle mit einem Klick)
Server-seitige User-Agent-Blocks (Nginx/Apache mit return 403 für die einschlägigen Strings)
IP-Range-Sperren (OpenAI und Anthropic veröffentlichen ihre Crawler-IPs in einer JSON-Datei)

Für 90 Prozent unserer KMU-Kunden ist das Overkill. Die robots.txt-Lösung deckt die seriösen Player ab, und mehr ist meist nicht nötig. Aber es ist gut zu wissen, dass die Eskalationsstufe existiert.

robots.txt-Snippets — drei Varianten

Variante 1: "Open" — alles erlauben (Standard)

Das ist der Default, wenn du nichts machst. Nur ein klassisches Setup für Suchmaschinen, keine speziellen Regeln für AI-Bots:

User-agent: *
Allow: /

Sitemap: https://deine-domain.de/sitemap.xml

Empfehlung: Für die meisten KMU-Webseiten ist das richtig. Du willst zitiert werden, du willst gefunden werden, dein Content ist eh öffentlich. Mehr dazu unten.

Variante 2: "Strict" — alles AI sperren

Für Verlage, Premium-Content, Seiten mit eigener IP, die unter keinen Umständen ins Modelltraining sollen:

# Training-Crawler sperren
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: Applebot-Extended
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: Diffbot
Disallow: /

User-agent: Amazonbot
Disallow: /

# AI-Search & User-Agent-Crawler ebenfalls sperren
User-agent: OAI-SearchBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: Claude-User
Disallow: /

User-agent: Claude-SearchBot
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: Perplexity-User
Disallow: /

# Klassische Suche bleibt erlaubt
User-agent: *
Allow: /

Sitemap: https://deine-domain.de/sitemap.xml

Konsequenz: Du verschwindest komplett aus AI-Antworten und AI Overviews. Für eine Marketing-Site ist das selten sinnvoll, für eine Bezahlschranken-News-Site oder eine Datenbank mit hochwertigem proprietärem Content sehr wohl.

Variante 3: "Differenziert" — unsere Empfehlung für die meisten

Trainings-Crawler sperren, User- und Search-Crawler erlauben. Du erscheinst weiter in ChatGPT, Perplexity und AI Overviews, aber lieferst keinen Stoff für die nächsten Modellgenerationen:

# Training-Crawler sperren
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: Applebot-Extended
Disallow: /

User-agent: Bytespider
Disallow: /

# Search- und User-Agent-Crawler erlauben (kein Disallow nötig,
# wir listen sie nur explizit zur Klarheit)
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: Claude-User
Allow: /

User-agent: Claude-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Perplexity-User
Allow: /

# Alle anderen — inklusive Googlebot — erlauben
User-agent: *
Allow: /

Sitemap: https://deine-domain.de/sitemap.xml

Das ist der Mittelweg, den viele Verlage und mittelgroße Content-Sites mittlerweile fahren. Für KMU-Marketingseiten ist er meist zu vorsichtig — siehe nächster Abschnitt.

Was passt zu welchem Geschäftsmodell?

Das ist der Teil, der in den meisten Anleitungen fehlt: Die Antwort hängt davon ab, wovon du lebst.

Lokale KMU-Webseite (Handwerker, Kanzlei, Praxis, Beratung)

Empfehlung: Komplett zulassen. Du willst gefunden werden. Wenn jemand in ChatGPT fragt "Welcher Webdesigner in Hockenheim macht auch Onlineshops?", willst du genau in dieser Antwort auftauchen. Trainings-Crawler zu sperren bringt dir hier nichts — dein Content ist sowieso öffentlich, deine USP ist die persönliche Leistung vor Ort, nicht der Text auf der Webseite. Wie sich AI-Antworten und klassische Local-SEO-Signale ergänzen, schauen wir uns im Detail in unserem Artikel zu Google Business Profile und GEO-Targeting an.

E-Commerce / Onlineshop

Empfehlung: Komplett zulassen. Produktdaten, Beschreibungen, Lieferzeiten — alles, was ein User in einem AI-Tool über dein Produkt erfährt, sollte aus deiner Quelle kommen, nicht aus zweiter Hand. Wer hier sperrt, riskiert, dass die KI eine veraltete oder falsche Beschreibung von einem Wettbewerber zitiert.

Agentur, Beratung, B2B-Dienstleister

Empfehlung: Komplett zulassen. AI-Suche ist 2026 ein eigener Marketing-Kanal. Wir sehen bei eigenen Recherchen in ChatGPT und Perplexity zunehmend Empfehlungen für Dienstleister, die nicht nur durch Google ranken, sondern in den Trainings- und Live-Daten der LLMs gut repräsentiert sind. Das ist die nächste Stufe von SEO — und sie funktioniert nur, wenn die KI deine Inhalte sieht.

Publisher / News / Verlag

Empfehlung: Variante 3 (differenziert), oft Variante 2 (strict). Hier sind die Inhalte das Produkt. Du willst nicht, dass ein User die Antwort in ChatGPT bekommt und nie auf deine Seite klickt. Zumindest die Trainings-Crawler sollten draußen bleiben. Bei Premium-/Paid-Content lohnt der vollständige Block.

Kreativbranche, Fotografie, Texte mit eigener Note

Empfehlung: Variante 2 oder 3, je nach Risiko-Empfinden. Wenn dein Werk Teil deiner Identität ist und du nicht willst, dass die nächsten Modelle "in deinem Stil" generieren, ist der Block der einzig sinnvolle Schritt. Rechtlich abgesichert ist das über die DSM-Richtlinie (siehe unten).

Datenbank, Vergleichsportal, eigene Recherche

Empfehlung: Mindestens Variante 3, evtl. Variante 2 mit Ausnahmen. Wer mit aggregierten Daten Geld verdient, sollte das Material schützen — aber gleichzeitig prüfen, ob die Sichtbarkeit in AI-Antworten nicht doch ein Akquise-Kanal ist.

Was wir bei Kundenseiten konkret beobachten

Ein paar Praxis-Eindrücke aus den Logfiles, die wir 2025/2026 bei Bestandskunden im Rhein-Neckar-Raum analysiert haben — keine wissenschaftliche Studie, einfach ein Realitätscheck:

AI-Crawler machen mittlerweile 5 bis 15 Prozent des Bot-Traffics aus, je nach Branche. Bei Content-lastigen Seiten (Blogs, Ratgeber) deutlich mehr als bei reinen Onepagern.
GPTBot und ClaudeBot sind quantitativ am aktivsten. Beide crawlen tief und regelmäßig — vor allem nach größeren Content-Updates.
Bytespider hat sich seit 2024 spürbar verstärkt und verhält sich teilweise aggressiv (hohe Frequenz, ignoriert Crawl-Delay). Wenn ein Server ohne Cache läuft, kann das zur Belastung werden.
Cloudflare, AWS und große Hoster melden im Aggregat denselben Trend: Der Bot-Anteil am Gesamttraffic steigt, vor allem getrieben durch AI-Crawler.

Server-Last ist für die meisten unserer Kunden kein Problem (statisch oder mit Caching), aber bei dynamischen Plattformen ohne CDN spürt man es. In dem Fall ist nicht "AI sperren" die richtige Antwort, sondern Caching aufzubauen.

Neue Standards: llms.txt — Hype oder Substanz?

Seit 2024 macht ein neuer freiwilliger Standard die Runde: llms.txt. Die Idee: eine zusätzliche Datei im Root, die LLMs eine kuratierte, markdown-formatierte Version deiner Inhalte anbietet. Eine Art Sitemap speziell für KI.

Stand 2026: Adoption ist noch überschaubar. Anthropic und einige kleinere Anbieter werten llms.txt aus, OpenAI hält sich bisher zurück. Schaden tut es nicht — wenn du einen einigermaßen klaren Content-Bestand hast, kannst du eine llms.txt anlegen. Aber als kritischen Hebel würden wir das aktuell nicht einstufen.

Rechtslage in DE / EU 2026

Kurz und ohne Anwaltston: Die DSM-Richtlinie (EU 2019/790) hat in Artikel 4 ein Opt-out für Text and Data Mining geregelt. Wer maschinenlesbar widerspricht, dessen Inhalte dürfen nicht für TDM (und damit auch nicht für KI-Training) genutzt werden. "Maschinenlesbar" heißt in der Praxis vor allem: robots.txt nach RFC 9309 — das ist der einzige etablierte Standard, den Recital 18 der Richtlinie explizit anerkennt. Vorschläge wie llms.txt oder ai.txt kursieren, sind aber bisher experimentell und ohne breite Adoption.

Praktische Konsequenz für deutsche Website-Betreiber: Wenn du GPTBot, ClaudeBot, CCBot und Google-Extended in der robots.txt sperrst, hast du ein dokumentiertes Opt-out, auf das du dich rechtlich berufen kannst. Wer den Bot dann trotzdem crawlt, bewegt sich in einer Grauzone bis Verletzung — Klagen großer Verlage gegen OpenAI laufen genau auf dieser Linie. In Kombination mit einem sauber aufgesetzten Cookie-Banner und Tracking-Setup (siehe Datenschutz und Cookie-Banner 2026) hast du die wichtigsten beiden datenschutz- und urheberrechtlichen Bausteine 2026 abgedeckt.

Wer nichts in die robots.txt schreibt, hat dieses Argument nicht. Das ist auch ein Grund, warum wir bei Bestandskunden zunehmend mindestens Variante 3 (differenziert) einbauen — selbst wenn die kommerzielle Sichtbarkeit eigentlich für "alles offen" sprechen würde. Die rechtliche Position ist mit Opt-out einfach sauberer.

Unsere Empfehlung in einem Satz

Sperre Training-Crawler, wenn dein Content selbst das Produkt ist. Erlaube alles, wenn du davon lebst, gefunden zu werden. Sperr niemals die User-Agent-Crawler — das ist 2026 das Äquivalent zu "Googlebot raus" Anfang der 2000er.

Das gehört auf deine To-do-Liste

Schau dir deine aktuelle robots.txt an. Wenn da gar keine AI-Bot-Direktiven stehen, hast du faktisch Variante 1 (Open).
Entscheide bewusst, in welche Schublade dein Geschäftsmodell fällt. Ehrlich, nicht aus Reflex.
Implementiere die passende Variante. Das ist eine Datei im Root, kein Großprojekt.
Schau einmal im Quartal in die Logs, ob unbekannte Bots auftauchen, die du nicht ignorieren willst.
Wenn du Kreativ-Content schützt, ergänze die robots.txt um Cloudflare-Block oder serverseitige User-Agent-Filter.

Wenn du nicht sicher bist, was zu deinem Geschäftsmodell passt, oder wenn du deine bestehende Webseite einmal sauber prüfen lassen willst — robots.txt, Indexierung, AI-Sichtbarkeit, Strukturierte Daten — dann melde dich. Wir schauen uns das gemeinsam an, ehrlich und ohne Verkaufstrichter. Für Unternehmen aus Hockenheim, Mannheim, Heidelberg oder dem gesamten Rhein-Neckar-Raum oft auch persönlich vor Ort.

Wenn du tiefer ins Thema willst, lies auch unseren Artikel zu SEO 2026 für kleine Unternehmen — dort geht es um den größeren Rahmen, in dem AI-Crawler nur ein Baustein sind.

AI-Crawler GPTBot, ClaudeBot, CCBot: Blockieren oder zulassen? Was wirklich passiert