Ausführlich · 8 Min.

llms.txt vs robots.txt vs sitemap.xml

Was jede Datei leistet und warum Sie alle drei benötigen.

Drei kleine Textdateien liegen im Stammverzeichnis Ihrer Domain. Zwei davon existieren seit über zwanzig Jahren. Die dritte wurde 2024 veröffentlicht und gewann 2026 echte Verbreitung. Gemeinsam übermitteln sie Crawlern und KI-Systemen drei völlig unterschiedliche Botschaften — und dennoch verwechseln Teams sie jede Woche. Dies ist die verständliche Erklärung.

Die 30-Sekunden-Antwort

robots.txt teilt Crawlern mit, was sie nicht crawlen dürfen. sitemap.xml teilt Crawlern mit, welche URLs existieren. llms.txt teilt KI-Systemen mit, worum es auf Ihrer Website wirklich geht, in einem für sie optimierten Format.

Sie sind nicht redundant. Drei verschiedene Aufgaben, drei verschiedene Zielgruppen. Eine moderne Website profitiert davon, alle drei zu veröffentlichen.

robots.txtsitemap.xmlllms.txt
AufgabeCrawl-Berechtigungen festlegenAlle URLs auflistenKI-Zusammenfassung kuratieren
ZielgruppeAlle CrawlerSuchmaschinenKI-Systeme
FormatKlartextXMLMarkdown
Jahr der Veröffentlichung1994 (de facto), 2022 (RFC)20052024
TonalitätImperativ — “nicht erlaubt”Inventar — “hier sind die URLs”Redaktionell — “das ist relevant”
Typische Größe< 1 KB10 KB – 50 MB1–20 KB
Erforderlich?Nein (empfohlen)Nein (empfohlen)Nein (wird zunehmend erwartet)

1. robots.txt — der Türsteher

Zweck: Crawlern mitteilen, welche Pfade sie nicht abrufen dürfen.

Speicherort: immer https://yoursite.com/robots.txt. Subdomains haben ihre eigene Datei. Unterverzeichnisse werden nicht berücksichtigt.

Format: Klartext, eine Regel pro Zeile. Definiert durch das Robots Exclusion Protocol, formalisiert als RFC 9309 im September 2022.

Wer liest sie: wohlverhalten Crawler — Googlebot, Bingbot, GPTBot, ClaudeBot, PerplexityBot usw. Böswillige Scraper ignorieren sie; das ist eine Eigenschaft, kein Fehler. robots.txt ist eine Bitte, keine Durchsetzung.

User-agent: *
Disallow: /admin
Disallow: /cart

User-agent: GPTBot
Allow: /

Sitemap: https://yoursite.com/sitemap.xml

Häufiger Fehler: GPTBot, ClaudeBot oder PerplexityBot durch eine Standard-Deny-Regel zu blockieren. Wenn Sie das tun, ist Ihre llms.txt wirkungslos — diese Crawler werden sie nicht abrufen. Unser Checker erkennt dies automatisch.

2. sitemap.xml — die Karteikarte

Zweck: Crawlern mitteilen, welche URLs auf Ihrer Website existieren, sowie optionale Metadaten (zuletzt geändert, Änderungshäufigkeit, Priorität).

Speicherort: üblicherweise unter /sitemap.xml, aber die maßgebliche Referenz stammt entweder aus der Google Search Console oder einer Sitemap:-Direktive in robots.txt. Große Websites unterteilen in mehrere Sitemaps unter einem Sitemap-Index.

Format: XML. Das Schema liegt auf sitemaps.org (zuletzt überarbeitet 2008, weiterhin maßgeblich).

Wer liest sie: Suchmaschinen, die ein vollständiges URL-Inventar benötigen — Google, Bing, Yandex usw. Von KI-Assistenten wird sie heute nicht direkt ausgewertet.

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://yoursite.com/</loc>
    <lastmod>2026-05-01</lastmod>
    <priority>1.0</priority>
  </url>
  <url>
    <loc>https://yoursite.com/pricing</loc>
    <lastmod>2026-04-15</lastmod>
  </url>
</urlset>

Häufiger Fehler: zu glauben, eine Sitemap zwinge Google zur Indexierung einer URL. Das stimmt nicht. Eine Sitemap ist ein Hinweis auf Existenz und Aktualität; Ranking- und Indexierungsentscheidungen verbleiben bei der Suchmaschine.

3. llms.txt — das Inhaltsverzeichnis für KI

Zweck: einem KI-System eine kuratierte Markdown-Zusammenfassung Ihrer Website bereitstellen, damit es Fragen über Sie beantworten kann, ohne Ihr vollständiges HTML, Navigation, Skripte und Cookie-Banner zu parsen.

Speicherort: immer https://yoursite.com/llms.txt. Größere Websites können zusätzlich llms-full.txt veröffentlichen — eine Zusammenführung vollständiger Artikelinhalte in Markdown.

Format: Markdown mit fester Struktur: ein H1 Seitenname, ein Blockquote als Zusammenfassung, ##-Abschnitte und Listeneinträge im Format - [Name](url): Beschreibung. Spezifikation von Jeremy Howard bei Answer.AI, veröffentlicht im September 2024.

Wer liest sie: KI-Agenten und Crawler, wenn sie eine Antwort auf Grundlage Ihrer Website formulieren müssen. Bereits übernommen von Anthropic, Stripe, Cloudflare, Vercel, Mintlify und einer wachsenden Zahl führender SaaS-Websites. Die Verbreitung unter den Top 1.000 Websites liegt noch unter 1 %, doch die Kurve steigt steil an.

# Acme Corp

> Open-source database for full-text search across structured documents.

## Docs
- [Quickstart](https://acme.example/docs/quickstart): Get a cluster running in 5 minutes.
- [API reference](https://acme.example/docs/api): Full HTTP API.

## Optional
- [Architecture](https://acme.example/blog/architecture): How the index is sharded.

Häufiger Fehler: die Datei am falschen Ort abzulegen (/.well-known/llms.txt oder in einem Unterverzeichnis). Die Spezifikation ist eindeutig: sie gehört ins Stammverzeichnis.

Wie die drei Dateien zusammenwirken

Sie überschneiden sich weniger als man vermuten würde.

  • robots.txt legt die Berechtigungsgrenze fest — was überhaupt abgerufen werden darf.
  • sitemap.xml beschreibt die vollständige Oberfläche — jede URL, die eine Suchmaschine kennen soll.
  • llms.txt wählt die wichtige Teilmenge aus — den kuratierten “das ist relevant”-Wegweiser für KI.

Eine typische kleine Website hat 50–500 URLs in ihrer Sitemap, aber nur 5–25 Einträge in ihrer llms.txt. Das ist der Sinn dahinter. llms.txt ist redaktionell, nicht erschöpfend.

Was passiert, wenn eine Datei fehlt?

Keine robots.txt

Alle Crawler gehen standardmäßig von “alles erlaubt” aus. Das ist in der Regel in Ordnung; Sie benötigen eine robots.txt nur, wenn Sie Pfade verbergen möchten (Admin-Bereich, Staging, Suchergebnisseiten). Ohne eine Sitemap:-Direktive greifen Suchmaschinen jedoch auf die Link-Erkennung zurück, was langsamer ist.

Keine sitemap.xml

Suchmaschinen crawlen Ihre Website und entdecken URLs über Links. Bei Websites mit starker interner Verlinkung funktioniert das gut. Bei tief verschachtelten oder paginierten Inhalten (große Kataloge, Archive) führt das Fehlen einer Sitemap zu langsamerer Indexierung.

Keine llms.txt

KI-Assistenten parsen Ihr vollständiges HTML — Navigation, Skripte, Cookie-Banner, alles — und versuchen, Ihre Website aus dem Rauschen zusammenzufassen. Manchmal gelingt das, aber Sie überlassen das Ergebnis dem Zufall. Websites, die eine saubere llms.txt veröffentlichen, berichten von bis zu 10-fach geringerem Token-Verbrauch, wenn KI-Systeme sie zitieren — was unmittelbar beeinflusst, wie häufig Zitierungen stattfinden.

Die Einrichtungs-Checkliste

  1. sitemap.xml veröffentlichen — die meisten CMS-Plattformen (WordPress, Webflow, Shopify, Next.js) generieren diese automatisch. Überprüfen Sie, ob sie unter /sitemap.xml erreichbar ist.
  2. robots.txt veröffentlichen — selbst eine minimale Variante (User-agent: * / Allow: / / Sitemap: https://yoursite.com/sitemap.xml) ist besser als nichts. Stellen Sie sicher, dass Sie KI-Crawler nicht versehentlich blockieren.
  3. llms.txt generieren geben Sie Ihre URL in unseren Generator ein und erhalten Sie einen Entwurf, den Sie bearbeiten und hochladen können.
  4. Validieren — prüfen Sie die Datei mit dem Validator auf Spezifikationskonformität, bevor Sie sie bekannt machen.

FAQ

Ersetzt llms.txt die robots.txt oder sitemap.xml?

Nein. Sie bedienen unterschiedliche Zielgruppen und erfüllen unterschiedliche Zwecke. Suchmaschinen verlassen sich weiterhin auf Sitemaps; Crawler respektieren weiterhin robots.txt. llms.txt ist rein additiv — eine neue Schicht für KI.

Rufen KI-Systeme llms.txt heute tatsächlich ab?

ChatGPT (mit Browsing), Claude, Perplexity und Cursor lesen llms.txt nachweislich, wenn sie eine Website für die Antwortgrundlage abrufen. Stand 2026 ist das noch nicht universell, aber die wichtigsten Anbieter unterstützen es, und die Liste wächst.

Hilft llms.txt noch, wenn ich KI-Crawler in robots.txt blockiere?

Nein — sie ergänzen sich gegenseitig. Wer GPTBot oder ClaudeBot in robots.txt blockiert, verhindert, dass diese Crawler auch llms.txt abrufen. Wer möchte, dass KI über seine Website Bescheid weiß, muss sie einlassen.

Soll ich jede Seite in llms.txt aufführen?

Nein. llms.txt ist ein kuratiertes Inhaltsverzeichnis, keine Sitemap. Streben Sie 5–25 Einträge an, die Ihre wichtigsten Inhalte repräsentieren: Dokumentation, Preise, zentrale Produktseiten, grundlegende Artikel. Den langen Schwanz gehört in die Sitemap oder in llms-full.txt.

Was ist mit llms-full.txt?

Optional. Sie enthält das vollständige Markdown Ihrer wichtigsten Seiten in einem Dokument. Große Dokumentationswebsites (Stripe, Anthropic) veröffentlichen beide Dateien. Für die meisten Websites genügt llms.txt.

Wirkt sich llms.txt auf mein Google-Ranking aus?

Nicht direkt. Google nutzt sitemap.xml zur Erkennung, nicht llms.txt. llms.txt beeinflusst die Sichtbarkeit in der KI-Suche — ChatGPT, Claude, Perplexity usw. — die zunehmend ein eigenständiger Kanal ist.

Nächste Schritte