じっくり読む · 8 分

llms.txt vs robots.txt vs sitemap.xml

それぞれのファイルが何をするのか、そして3つすべてが必要な理由。

ドメインのルートに置かれる、3つの小さなテキストファイルがあります。 2つは20年以上前から存在しています。3つ目は2024年に公開され、 2026年に入って急速に普及し始めました。これらはクローラーとAIシステムに 対して、まったく異なる3つのことを伝えます ―― それでも毎週のように 混同されています。これはその違いをわかりやすく整理した解説です。

30秒でわかる答え

robots.txt はクローラーに クロールしてはいけない場所を伝えます。 sitemap.xml はクローラーに 存在するURLの一覧を伝えます。llms.txt はAIシステムに対して、サイトが実際に何について書かれているかを、 AIが読みやすい形式で伝えます。

この3つは冗長ではありません。役割が違い、読む相手も違います。 現代のサイトは3つすべてを公開することで恩恵を受けられます。

robots.txtsitemap.xmlllms.txt
役割クロール許可の設定全URLの一覧AIへのサイト要約
読む相手すべてのクローラー検索エンジンAIシステム
形式プレーンテキストXMLMarkdown
公開年1994年(慣習)、2022年(RFC)2005年2024年
性質命令的 ―― “禁止”網羅的 ―― “URLはこちら”編集的 ―― “重要なのはここ”
典型的なサイズ< 1 KB10 KB 〜 50 MB1〜20 KB
必須?いいえ(推奨)いいえ(推奨)いいえ(標準化が進行中)

1. robots.txt ―― 門番

目的:クローラーに対して、取得を許可しないパスを伝えます。

場所:常に https://yoursite.com/robots.txt。サブドメインにはそれぞれ 固有のものが必要です。サブディレクトリには置けません。

形式:プレーンテキスト、1行1ルール。Robots Exclusion Protocol によって定義され、 2022年9月にRFC 9309として正式化されました。

誰が読むか:行儀の良いクローラー ―― Googlebot、 Bingbot、GPTBot、ClaudeBot、PerplexityBotなど。悪意あるスクレイパーは 無視しますが、それは想定済みです。 robots.txt はあくまでお願いであり、 強制力はありません。

User-agent: *
Disallow: /admin
Disallow: /cart

User-agent: GPTBot
Allow: /

Sitemap: https://yoursite.com/sitemap.xml

よくある間違い:デフォルト拒否のルールで GPTBotClaudeBot、または PerplexityBot をブロックしてしまうこと。そうすると llms.txt は無意味になります ―― それらのクローラーが 取得できなくなるからです。 当サイトのチェッカー はこの問題を自動的に検出します。

2. sitemap.xml ―― 索引カード

目的:クローラーにサイト内のURLの存在を伝えます。 最終更新日・更新頻度・優先度などのメタデータも付加できます。

場所:慣習的に /sitemap.xml ですが、正式な参照先はGoogle Search Consoleへの 登録か、robots.txt 内の Sitemap: ディレクティブです。 大規模サイトはサイトマップインデックスの下に複数に分割します。

形式:XML。スキーマは sitemaps.org で定義されています(最終改訂2008年、現在も有効)。

誰が読むか:完全なURLインベントリを必要とする検索エンジン ―― Google、Bing、Yandexなど。今のところAIアシスタントが直接読むことはありません。

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://yoursite.com/</loc>
    <lastmod>2026-05-01</lastmod>
    <priority>1.0</priority>
  </url>
  <url>
    <loc>https://yoursite.com/pricing</loc>
    <lastmod>2026-04-15</lastmod>
  </url>
</urlset>

よくある間違い:サイトマップを送ればGoogleが必ずインデックスする、 という思い込み。そうではありません。サイトマップはURLの存在と鮮度に関する ヒントに過ぎず、ランキングやインデックスの判断は検索エンジン側が行います。

3. llms.txt ―― AIへの目次

目的:AIシステムに対して、サイトの厳選されたMarkdown要約を 提供することで、HTML全体・ナビゲーション・スクリプト・Cookieバナーを 解析せずに質問に答えられるようにします。

場所:常に https://yoursite.com/llms.txt。大規模サイトでは 主要記事の本文をMarkdownで連結した llms-full.txt を 併せて公開することもあります。

形式:固定の構造を持つMarkdown ―― H1のサイト名、 blockquoteの概要、## のセクション、- [名前](URL): 説明 形式のリンク一覧。 仕様はJeremy Howard(Answer.AI)によって2024年9月に公開されました。

誰が読むか:サイトに基づいて回答を作るときのAIエージェントや クローラー。Anthropic、Stripe、Cloudflare、Vercel、Mintlifyをはじめ、 主要SaaSサイトへの普及が進んでいます。上位1,000サイトの導入率はまだ1%未満ですが、 伸び率は急勾配です。

# Acme Corp

> Open-source database for full-text search across structured documents.

## Docs
- [Quickstart](https://acme.example/docs/quickstart): Get a cluster running in 5 minutes.
- [API reference](https://acme.example/docs/api): Full HTTP API.

## Optional
- [Architecture](https://acme.example/blog/architecture): How the index is sharded.

よくある間違い:置く場所を間違えること(/.well-known/llms.txt やサブディレクトリなど)。仕様は明確です ―― ルートに置く必要があります。

3つがどう連携するか

思っているほど重複していません。

  • robots.txtアクセス権の境界を設定します ―― そもそも取得してよいかどうか。
  • sitemap.xml全体の範囲を示します ―― 検索エンジンに知らせたいすべてのURL。
  • llms.txt重要な部分だけを選びます ―― AIへの「ここが大事」という厳選された案内。

典型的な小規模サイトはサイトマップに50〜500件のURLを持ちますが、llms.txt には5〜25件しか載せません。それが狙いです。llms.txt は網羅的ではなく、編集的なものです。

1つ欠けているとどうなる?

robots.txt がない場合

クローラーはすべてのパスにアクセスしてよいものとみなします。 管理画面やステージング環境、検索結果ページなど隠したいパスがなければ 通常は問題ありません。ただし Sitemap: ディレクティブがないと、 検索エンジンはリンクをたどってURLを発見するしかなく、速度が落ちます。

sitemap.xml がない場合

検索エンジンはリンクをたどってURLを発見します。内部リンクが充実した サイトであれば問題なく機能します。ただし、深い階層のコンテンツや ページネーションの多いコンテンツ(大型カタログ・アーカイブなど)では サイトマップなしだとインデックスが遅くなります。

llms.txt がない場合

AIアシスタントはHTML全体 ―― ナビゲーション、スクリプト、Cookieバナー すべてを含めて ―― を解析し、ノイズの中からサイトを要約しようとします。 うまくいくこともありますが、結果を運任せにしていることになります。 きれいな llms.txt を公開しているサイトは、AIシステムが 引用する際のトークン使用量が最大10分の1になると報告されており、 これは引用される頻度に直接影響します。

設置チェックリスト

  1. sitemap.xml を公開する ―― WordPress、Webflow、Shopify、Next.jsなど多くのCMSが自動生成します。/sitemap.xml でアクセスできるか確認してください。
  2. robots.txt を公開する ―― 最小限のもの(User-agent: * / Allow: / / Sitemap: https://yoursite.com/sitemap.xml)でも ないよりはるかに良いです。AIクローラーを誤ってブロックしていないか確認してください。
  3. llms.txt を生成する ―― URLを当サイトのジェネレーターに貼り付ける と、編集・アップロードできるドラフトが得られます。
  4. 検証する ―― ファイルを バリデーター にかけて、公開前に仕様に準拠しているか確認してください。

よくある質問

llms.txt は robots.txt や sitemap.xml の代わりになりますか?

なりません。それぞれ対象読者と目的が異なります。検索エンジンは引き続きサイトマップを利用し、クローラーは robots.txt を尊重します。llms.txt は純粋に追加的なもの ―― AI向けの新しい層です。

AIシステムは今すでに llms.txt を読んでいますか?

ChatGPT(ブラウジング機能)、Claude、Perplexity、Cursorはいずれも、サイトをグラウンディングのために取得する際に llms.txt を読むことが確認されています。2026年時点では全面的ではありませんが、主要プレイヤーはサポートしており、対応リストは増え続けています。

robots.txt でAIクローラーをブロックしても llms.txt は意味がありますか?

ありません ―― この2つは補完関係にあります。robots.txt で GPTBot や ClaudeBot をブロックすると、それらのクローラーは llms.txt も取得できなくなります。AIにサイトを知ってもらいたいなら、アクセスを許可する必要があります。

llms.txt にはすべてのページを載せるべきですか?

いいえ。llms.txt はサイトマップではなく、厳選された目次です。最も重要なコンテンツ ―― ドキュメント、料金ページ、主要プロダクトページ、基礎記事など ―― を5〜25件に絞ってください。ロングテールはサイトマップか llms-full.txt に委ねましょう。

llms-full.txt とは何ですか?

任意のファイルです。最も重要なページの全文をMarkdownで連結したものです。Stripeや Anthropicのような大規模ドキュメントサイトは両方を公開しています。ほとんどのサイトは llms.txt だけで十分です。

llms.txt はGoogleの検索順位に影響しますか?

直接的な影響はありません。Googleはサイトの発見に sitemap.xml を使っており、llms.txt は使っていません。llms.txt が影響するのはAI検索の可視性 ―― ChatGPT、Claude、Perplexityなど ―― であり、これは従来の検索とは別のチャネルとして重要性が増しています。

次のステップ