Vor 2023 war die Frage, ob man Suchmaschinen-Crawler in die eigene Seite lässt, keine: Googlebot rein, fertig. Inzwischen stehen ein Dutzend Bots vor der Tür, die nicht mehr indexieren, sondern Inhalte abgreifen. Manche, um Sprachmodelle zu trainieren, andere, um direkte Antworten in ChatGPT, Perplexity oder Google AI Overviews zu generieren — meist ohne dass jemand jemals deine Seite aufruft.
Wer pauschal alles sperrt, verschwindet aus diesen Antworten. Wer pauschal alles zulässt, liefert kostenlos Trainingsmaterial. Was wir bei Kunden in der Metropolregion Rhein-Neckar tatsächlich machen, hängt am Geschäftsmodell. Wir gehen das gleich Schritt für Schritt durch.
Warum die Frage 2026 plötzlich ernst geworden ist
Bis vor zwei, drei Jahren war "AI-Crawler" ein Nischenthema für große Verlage. Heute ist es Mainstream:
- Google AI Overviews zitieren und verlinken Quellen direkt im Suchergebnis. Wer da nicht auftaucht, verliert Sichtbarkeit, selbst wenn die organische Position 1 gehalten wird.
- ChatGPT Search, Perplexity und Claude beantworten Fragen mit Quellenangaben. Diese Quellen werden über User-Agent-Crawler in Echtzeit abgeholt. Wer den Crawler blockiert, wird nicht zitiert.
- Gleichzeitig laufen die Trainings-Crawler im Hintergrund weiter und sammeln Inhalte für die nächsten Modellgenerationen. An dieser Stelle zögern viele Website-Betreiber zu Recht.
Eine Sache vorweg, weil viele Anleitungen sie wild durcheinanderwerfen: Es gibt nicht "den" AI-Bot. Es gibt zwei sehr unterschiedliche Kategorien.
Die zwei Arten von AI-Crawlern (das ist der wichtigste Punkt)
Training-Crawler sammeln systematisch Webinhalte, um damit später ein Sprachmodell zu trainieren. Sie laufen kontinuierlich im Hintergrund. Beispiele: GPTBot, ClaudeBot, CCBot, Google-Extended, Applebot-Extended.
User-Agent-Crawler rufen eine Seite genau dann ab, wenn ein Mensch in ChatGPT, Perplexity oder einem ähnlichen Tool eine Frage stellt, deren Antwort eine konkrete URL erfordert. Sie sind quasi der "Browser" der KI im Auftrag des Nutzers. Beispiele: ChatGPT-User, Claude-User, OAI-SearchBot, PerplexityBot.
Wenn du nur die Training-Crawler sperrst, sagst du: "Trainiert nicht mit meinen Inhalten, aber zitiert mich gerne in Antworten." Wenn du auch die User-Crawler sperrst, sagst du: "Erwähnt mich nirgendwo, ich existiere für eure Nutzer nicht." Das ist ein Riesenunterschied.
Die wichtigsten AI-Crawler 2026 im Überblick
| Bot (User-Agent) | Betreiber | Zweck | Auswirkung beim Sperren |
|---|---|---|---|
| GPTBot | OpenAI | Training | Inhalte fließen nicht in zukünftige GPT-Modelle |
| OAI-SearchBot | OpenAI | ChatGPT Search Index | Du erscheinst nicht in ChatGPT-Search-Antworten |
| ChatGPT-User | OpenAI | Live-Abruf für Nutzeranfrage | ChatGPT kann deine Seite nicht zitieren |
| ClaudeBot | Anthropic | Training | Kein Beitrag zu Claude-Modellen |
| Claude-User | Anthropic | Live-Abruf für Nutzeranfrage | Claude liest deine Seite nicht für User |
| Claude-SearchBot | Anthropic | Claude-Search-Index | Du erscheinst nicht in Claude-Search-Antworten |
| CCBot | Common Crawl | Offener Trainings-Index | Kein Eingang in viele Open-Source-LLMs |
| PerplexityBot | Perplexity AI | Search-Index für Citations | Du wirst in Perplexity nicht zitiert |
| Perplexity-User | Perplexity AI | Live-Abruf für Nutzeranfrage | Perplexity kann deine Seite nicht abrufen, wenn ein Nutzer fragt |
| Google-Extended | Gemini-Training | Kein Training, aber Google-Suche bleibt unberührt | |
| Applebot-Extended | Apple | Apple Intelligence Training | Kein Training, normaler Applebot bleibt unberührt |
| Bytespider | ByteDance / TikTok | Training (u.a. Doubao) | Kein Eingang in chinesische LLMs |
| Diffbot / Amazonbot | Diffbot, Amazon | Strukturierte Daten / Alexa, Trainings-Beistück | Marginal für die meisten KMU |
Wichtig: Google-Extended und Applebot-Extended wurden bewusst eingeführt, um eine getrennte Entscheidung zu ermöglichen. Du kannst Googlebot (klassische Suche) erlauben und Google-Extended (Gemini-Training) sperren. Google hat zugesichert, dass das die Suchplatzierung nicht beeinflusst. Bei Apple ist es genauso strukturiert.
Was robots.txt wirklich kann (und was nicht)
Bevor wir zu den Snippets kommen, eine Einordnung. Die robots.txt ist eine Höflichkeitsbitte, kein technischer Schutz. Gleichzeitig ist sie die Datei, an der jede Indexierungs-Strategie hängt. Wer hier unsauber arbeitet, riskiert genau die Sichtbarkeitsverluste, vor denen wir in unserer 12-Punkte-Relaunch-Checkliste ausführlich warnen. Was wir in den Logs unserer Kunden regelmäßig sehen:
- Seriöse Anbieter (OpenAI, Anthropic, Google, Apple, Perplexity) halten sich an die Direktiven.
- Bytespider (ByteDance) wird in mehreren unabhängigen Berichten beim Ignorieren der robots.txt beobachtet. Auch Perplexitys nutzergetriggerter Crawler stand 2024 in der Kritik (Wired-Recherche), die Direktiven nicht konsequent zu befolgen.
- Reine Datenscraper, die sich als normaler Browser ausgeben, kümmern sich grundsätzlich nicht um robots.txt.
Wer hart sperren will, braucht zusätzlich:
- WAF-Regeln (Cloudflare bietet seit 2024 einen "Block AI Bots"-Toggle mit einem Klick)
- Server-seitige User-Agent-Blocks (Nginx/Apache mit
return 403für die einschlägigen Strings) - IP-Range-Sperren (OpenAI und Anthropic veröffentlichen ihre Crawler-IPs in einer JSON-Datei)
Für 90 Prozent unserer KMU-Kunden ist das Overkill. Die robots.txt-Lösung deckt die seriösen Player ab, mehr ist meist nicht nötig. Aber gut zu wissen, dass die Eskalationsstufe existiert.
robots.txt-Snippets — drei Varianten
Variante 1: "Open" — alles erlauben (Standard)
Das ist der Default, wenn du nichts machst. Klassisches Setup für Suchmaschinen, keine speziellen Regeln für AI-Bots:
User-agent: *
Allow: /
Sitemap: https://deine-domain.de/sitemap.xml
Empfehlung: Für die meisten KMU-Webseiten ist das richtig. Du willst zitiert werden, du willst gefunden werden, dein Content ist sowieso öffentlich. Mehr dazu unten.
Variante 2: "Strict" — alles AI sperren
Für Verlage, Premium-Content, Seiten mit eigener IP, die unter keinen Umständen ins Modelltraining sollen:
# Training-Crawler sperren
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: Applebot-Extended
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: Diffbot
Disallow: /
User-agent: Amazonbot
Disallow: /
# AI-Search & User-Agent-Crawler ebenfalls sperren
User-agent: OAI-SearchBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: Claude-User
Disallow: /
User-agent: Claude-SearchBot
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: Perplexity-User
Disallow: /
# Klassische Suche bleibt erlaubt
User-agent: *
Allow: /
Sitemap: https://deine-domain.de/sitemap.xml
Konsequenz: Du verschwindest komplett aus AI-Antworten und AI Overviews. Für eine Marketing-Site ist das selten sinnvoll. Für eine Bezahlschranken-News-Site oder eine Datenbank mit hochwertigem proprietärem Content sehr wohl.
Variante 3: "Differenziert" — unsere Empfehlung für die meisten
Trainings-Crawler sperren, User- und Search-Crawler erlauben. Du erscheinst weiter in ChatGPT, Perplexity und AI Overviews, lieferst aber keinen Stoff für die nächsten Modellgenerationen:
# Training-Crawler sperren
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: Applebot-Extended
Disallow: /
User-agent: Bytespider
Disallow: /
# Search- und User-Agent-Crawler erlauben (kein Disallow nötig,
# wir listen sie nur explizit zur Klarheit)
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: Claude-User
Allow: /
User-agent: Claude-SearchBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Perplexity-User
Allow: /
# Alle anderen, inklusive Googlebot, erlauben
User-agent: *
Allow: /
Sitemap: https://deine-domain.de/sitemap.xml
Das ist der Mittelweg, den viele Verlage und mittelgroße Content-Sites mittlerweile fahren. Für KMU-Marketingseiten meist zu vorsichtig. Mehr dazu im nächsten Abschnitt.
Was passt zu welchem Geschäftsmodell?
Der Teil, der in den meisten Anleitungen fehlt: Die Antwort hängt davon ab, wovon du lebst.
Lokale KMU, E-Commerce, Agenturen, B2B-Dienstleister
Bei diesen Geschäftsmodellen ist die Antwort fast immer dieselbe: alles erlauben. Wer auf "in Hockenheim Webdesigner finden" oder "JTL-Shop einrichten lassen" sichtbar sein will, muss in den Trainings- und Live-Daten der LLMs auftauchen. Trainings-Crawler zu sperren bringt hier nichts: Der Content ist öffentlich, die USP ist die persönliche Leistung, nicht der Text auf der Seite.
Beim Onlineshop kommt ein zweiter Punkt dazu: Wer sperrt, riskiert, dass eine veraltete oder falsche Produktbeschreibung von einem Wettbewerber zitiert wird. Eigene Quelle ist immer besser als zweite Hand.
Bei Agenturen und B2B-Dienstleistern ist AI-Suche 2026 zudem ein eigener Marketing-Kanal. Wir sehen bei eigenen Recherchen in ChatGPT und Perplexity zunehmend Empfehlungen für Dienstleister, die nicht nur durch Google ranken, sondern in den Trainings- und Live-Daten der LLMs gut repräsentiert sind. Das ist die nächste Stufe von SEO, und sie funktioniert nur, wenn die KI deine Inhalte sieht. Wie AI-Antworten und klassische Local-SEO-Signale ineinandergreifen, steht detailliert in Google Business Profile und GEO-Targeting.
Publisher / News / Verlag
Variante 3 (differenziert), oft Variante 2 (strict). Hier sind die Inhalte das Produkt. Du willst nicht, dass ein User die Antwort in ChatGPT bekommt und nie auf deine Seite klickt. Zumindest die Trainings-Crawler sollten draußen bleiben. Bei Premium- oder Paid-Content lohnt der vollständige Block.
Kreativbranche, Fotografie, Texte mit eigener Note
Variante 2 oder 3, je nach Risiko-Empfinden. Wenn dein Werk Teil deiner Identität ist und du nicht willst, dass die nächsten Modelle "in deinem Stil" generieren, ist der Block der einzig sinnvolle Schritt. Rechtlich abgesichert ist das über die DSM-Richtlinie (siehe unten).
Datenbank, Vergleichsportal, eigene Recherche
Mindestens Variante 3, evtl. Variante 2 mit Ausnahmen. Wer mit aggregierten Daten Geld verdient, sollte das Material schützen. Aber gleichzeitig prüfen, ob die Sichtbarkeit in AI-Antworten nicht doch ein Akquise-Kanal ist.
Was wir bei Kundenseiten konkret beobachten
Ein paar Praxis-Eindrücke aus den Logfiles, die wir 2025/2026 bei Bestandskunden im Rhein-Neckar-Raum analysiert haben. Keine wissenschaftliche Studie, einfach ein Realitätscheck:
- AI-Crawler machen mittlerweile 5 bis 15 Prozent des Bot-Traffics aus, je nach Branche. Bei Content-lastigen Seiten (Blogs, Ratgeber) deutlich mehr als bei reinen Onepagern.
- GPTBot und ClaudeBot sind quantitativ am aktivsten. Beide crawlen tief und regelmäßig, vor allem nach größeren Content-Updates.
- Bytespider hat sich seit 2024 spürbar verstärkt und verhält sich teilweise aggressiv (hohe Frequenz, ignoriert Crawl-Delay). Wenn ein Server ohne Cache läuft, kann das zur Belastung werden.
- Cloudflare, AWS und große Hoster melden im Aggregat denselben Trend: Der Bot-Anteil am Gesamttraffic steigt, vor allem getrieben durch AI-Crawler.
Server-Last ist für die meisten unserer Kunden kein Problem (statisch oder mit Caching), aber bei dynamischen Plattformen ohne CDN spürt man es. In dem Fall ist nicht "AI sperren" die richtige Antwort, sondern Caching aufzubauen.
Neue Standards: llms.txt — Hype oder Substanz?
Seit 2024 macht ein neuer freiwilliger Standard die Runde: llms.txt. Die Idee: eine zusätzliche Datei im Root, die LLMs eine kuratierte, Markdown-formatierte Version deiner Inhalte anbietet. Eine Art Sitemap speziell für KI.
Stand 2026: Die Adoption ist überschaubar. Anthropic und einige kleinere Anbieter werten llms.txt aus, OpenAI hält sich bisher zurück. Schaden tut es nicht. Wenn du einen einigermaßen klaren Content-Bestand hast, kannst du eine llms.txt anlegen. Als kritischen Hebel würden wir das aktuell aber nicht einstufen.
Rechtslage in DE / EU 2026
Kurz und ohne Anwaltston: Die DSM-Richtlinie (EU 2019/790) hat in Artikel 4 ein Opt-out für Text and Data Mining geregelt. Wer maschinenlesbar widerspricht, dessen Inhalte dürfen nicht für TDM (und damit auch nicht für KI-Training) genutzt werden. "Maschinenlesbar" heißt in der Praxis vor allem: robots.txt nach RFC 9309. Das ist der einzige etablierte Standard, den Recital 18 der Richtlinie explizit anerkennt. Vorschläge wie llms.txt oder ai.txt kursieren, sind aber bisher experimentell und ohne breite Adoption.
Praktische Konsequenz für deutsche Website-Betreiber: Wenn du GPTBot, ClaudeBot, CCBot und Google-Extended in der robots.txt sperrst, hast du ein dokumentiertes Opt-out, auf das du dich rechtlich berufen kannst. Wer den Bot dann trotzdem crawlt, bewegt sich in einer Grauzone bis Verletzung. Klagen großer Verlage gegen OpenAI laufen genau auf dieser Linie. In Kombination mit einem sauber aufgesetzten Cookie-Banner und Tracking-Setup (siehe Datenschutz und Cookie-Banner 2026) hast du die wichtigsten beiden datenschutz- und urheberrechtlichen Bausteine 2026 abgedeckt.
Wer nichts in die robots.txt schreibt, hat dieses Argument nicht. Auch deshalb bauen wir bei Bestandskunden zunehmend mindestens Variante 3 (differenziert) ein, selbst wenn die kommerzielle Sichtbarkeit eigentlich für "alles offen" sprechen würde. Die rechtliche Position ist mit Opt-out einfach sauberer.
Unsere Empfehlung in einem Satz
Sperre Training-Crawler, wenn dein Content selbst das Produkt ist. Erlaube alles, wenn du davon lebst, gefunden zu werden. Sperr niemals die User-Agent-Crawler. Das ist 2026 das Äquivalent zu "Googlebot raus" Anfang der 2000er.
Das gehört auf deine To-do-Liste
- Schau dir deine aktuelle robots.txt an. Wenn da gar keine AI-Bot-Direktiven stehen, hast du faktisch Variante 1 (Open).
- Entscheide bewusst, in welche Schublade dein Geschäftsmodell fällt. Nicht aus Reflex.
- Implementiere die passende Variante. Eine Datei im Root, kein Großprojekt.
- Schau einmal im Quartal in die Logs, ob unbekannte Bots auftauchen, die du nicht ignorieren willst.
- Wenn du Kreativ-Content schützt, ergänze die robots.txt um Cloudflare-Block oder serverseitige User-Agent-Filter.
Wenn du nicht sicher bist, was zu deinem Geschäftsmodell passt, oder wenn du deine bestehende Webseite einmal sauber prüfen lassen willst (robots.txt, Indexierung, AI-Sichtbarkeit, strukturierte Daten), dann melde dich. Wir schauen uns das gemeinsam an. Für Unternehmen aus Hockenheim, Mannheim, Heidelberg oder dem gesamten Rhein-Neckar-Raum oft auch persönlich vor Ort. AI-Sichtbarkeit ist dabei längst Teil moderner Webdesign-Strategien, kein nachgelagertes SEO-Thema.
Wer tiefer ins Thema will, liest auch unseren Artikel zu SEO 2026 für kleine Unternehmen. Dort geht es um den größeren Rahmen, in dem AI-Crawler nur ein Baustein sind.