llms.txt vs robots.txt vs sitemap.xml：それぞれの役割と、3つすべてが必要な理由

30秒でわかる答え

robots.txt はクローラーに クロールしてはいけない場所を伝えます。 sitemap.xml はクローラーに 存在するURLの一覧を伝えます。llms.txt はAIシステムに対して、サイトが実際に何について書かれているかを、 AIが読みやすい形式で伝えます。

この3つは冗長ではありません。役割が違い、読む相手も違います。現代のサイトは3つすべてを公開することで恩恵を受けられます。

	robots.txt	sitemap.xml	llms.txt
役割	クロール許可の設定	全URLの一覧	AIへのサイト要約
読む相手	すべてのクローラー	検索エンジン	AIシステム
形式	プレーンテキスト	XML	Markdown
公開年	1994年（慣習）、2022年（RFC）	2005年	2024年
性質	命令的 ―― “禁止”	網羅的 ―― “URLはこちら”	編集的 ―― “重要なのはここ”
典型的なサイズ	< 1 KB	10 KB 〜 50 MB	1〜20 KB
必須?	いいえ（推奨）	いいえ（推奨）	いいえ（標準化が進行中）

1. robots.txt ―― 門番

目的：クローラーに対して、取得を許可しないパスを伝えます。

場所：常に https://yoursite.com/robots.txt。サブドメインにはそれぞれ固有のものが必要です。サブディレクトリには置けません。

形式：プレーンテキスト、1行1ルール。Robots Exclusion Protocol によって定義され、 2022年9月にRFC 9309として正式化されました。

誰が読むか：行儀の良いクローラー ―― Googlebot、 Bingbot、GPTBot、ClaudeBot、PerplexityBotなど。悪意あるスクレイパーは無視しますが、それは想定済みです。 robots.txt はあくまでお願いであり、強制力はありません。

User-agent: *
Disallow: /admin
Disallow: /cart

User-agent: GPTBot
Allow: /

Sitemap: https://yoursite.com/sitemap.xml

よくある間違い：デフォルト拒否のルールで GPTBot、ClaudeBot、または PerplexityBot をブロックしてしまうこと。そうすると llms.txt は無意味になります ―― それらのクローラーが取得できなくなるからです。当サイトのチェッカーはこの問題を自動的に検出します。

2. sitemap.xml ―― 索引カード

目的：クローラーにサイト内のURLの存在を伝えます。最終更新日・更新頻度・優先度などのメタデータも付加できます。

場所：慣習的に /sitemap.xml ですが、正式な参照先はGoogle Search Consoleへの登録か、robots.txt 内の Sitemap: ディレクティブです。大規模サイトはサイトマップインデックスの下に複数に分割します。

形式：XML。スキーマは sitemaps.org で定義されています（最終改訂2008年、現在も有効）。

誰が読むか：完全なURLインベントリを必要とする検索エンジン ―― Google、Bing、Yandexなど。今のところAIアシスタントが直接読むことはありません。

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://yoursite.com/</loc>
    <lastmod>2026-05-01</lastmod>
    <priority>1.0</priority>
  </url>
  <url>
    <loc>https://yoursite.com/pricing</loc>
    <lastmod>2026-04-15</lastmod>
  </url>
</urlset>

よくある間違い：サイトマップを送ればGoogleが必ずインデックスする、という思い込み。そうではありません。サイトマップはURLの存在と鮮度に関するヒントに過ぎず、ランキングやインデックスの判断は検索エンジン側が行います。

3. llms.txt ―― AIへの目次

目的：AIシステムに対して、サイトの厳選されたMarkdown要約を提供することで、HTML全体・ナビゲーション・スクリプト・Cookieバナーを解析せずに質問に答えられるようにします。

場所：常に https://yoursite.com/llms.txt。大規模サイトでは主要記事の本文をMarkdownで連結した llms-full.txt を併せて公開することもあります。

形式：固定の構造を持つMarkdown ―― H1のサイト名、 blockquoteの概要、## のセクション、- [名前](URL): 説明 形式のリンク一覧。仕様はJeremy Howard（Answer.AI）によって2024年9月に公開されました。

誰が読むか：サイトに基づいて回答を作るときのAIエージェントやクローラー。Anthropic、Stripe、Cloudflare、Vercel、Mintlifyをはじめ、主要SaaSサイトへの普及が進んでいます。上位1,000サイトの導入率はまだ1%未満ですが、伸び率は急勾配です。

# Acme Corp

> Open-source database for full-text search across structured documents.

## Docs
- [Quickstart](https://acme.example/docs/quickstart): Get a cluster running in 5 minutes.
- [API reference](https://acme.example/docs/api): Full HTTP API.

## Optional
- [Architecture](https://acme.example/blog/architecture): How the index is sharded.

よくある間違い：置く場所を間違えること（/.well-known/llms.txt やサブディレクトリなど）。仕様は明確です ―― ルートに置く必要があります。

3つがどう連携するか

思っているほど重複していません。

robots.txt はアクセス権の境界を設定します ―― そもそも取得してよいかどうか。
sitemap.xml は全体の範囲を示します ―― 検索エンジンに知らせたいすべてのURL。
llms.txt は重要な部分だけを選びます ―― AIへの「ここが大事」という厳選された案内。

典型的な小規模サイトはサイトマップに50〜500件のURLを持ちますが、llms.txt には5〜25件しか載せません。それが狙いです。llms.txt は網羅的ではなく、編集的なものです。

1つ欠けているとどうなる?

robots.txt がない場合

クローラーはすべてのパスにアクセスしてよいものとみなします。管理画面やステージング環境、検索結果ページなど隠したいパスがなければ通常は問題ありません。ただし Sitemap: ディレクティブがないと、検索エンジンはリンクをたどってURLを発見するしかなく、速度が落ちます。

sitemap.xml がない場合

検索エンジンはリンクをたどってURLを発見します。内部リンクが充実したサイトであれば問題なく機能します。ただし、深い階層のコンテンツやページネーションの多いコンテンツ（大型カタログ・アーカイブなど）ではサイトマップなしだとインデックスが遅くなります。

llms.txt がない場合

AIアシスタントはHTML全体 ―― ナビゲーション、スクリプト、Cookieバナーすべてを含めて ―― を解析し、ノイズの中からサイトを要約しようとします。うまくいくこともありますが、結果を運任せにしていることになります。きれいな llms.txt を公開しているサイトは、AIシステムが引用する際のトークン使用量が最大10分の1になると報告されており、これは引用される頻度に直接影響します。

設置チェックリスト

sitemap.xml を公開する ―― WordPress、Webflow、Shopify、Next.jsなど多くのCMSが自動生成します。/sitemap.xml でアクセスできるか確認してください。
robots.txt を公開する ―― 最小限のもの（User-agent: * / Allow: / / Sitemap: https://yoursite.com/sitemap.xml）でもないよりはるかに良いです。AIクローラーを誤ってブロックしていないか確認してください。
llms.txt を生成する ―― URLを当サイトのジェネレーターに貼り付けると、編集・アップロードできるドラフトが得られます。
検証する ―― ファイルをバリデーターにかけて、公開前に仕様に準拠しているか確認してください。

よくある質問

llms.txt は robots.txt や sitemap.xml の代わりになりますか?

なりません。それぞれ対象読者と目的が異なります。検索エンジンは引き続きサイトマップを利用し、クローラーは robots.txt を尊重します。llms.txt は純粋に追加的なもの ―― AI向けの新しい層です。

AIシステムは今すでに llms.txt を読んでいますか?

ChatGPT（ブラウジング機能）、Claude、Perplexity、Cursorはいずれも、サイトをグラウンディングのために取得する際に llms.txt を読むことが確認されています。2026年時点では全面的ではありませんが、主要プレイヤーはサポートしており、対応リストは増え続けています。

robots.txt でAIクローラーをブロックしても llms.txt は意味がありますか?

ありません ―― この2つは補完関係にあります。robots.txt で GPTBot や ClaudeBot をブロックすると、それらのクローラーは llms.txt も取得できなくなります。AIにサイトを知ってもらいたいなら、アクセスを許可する必要があります。

llms.txt にはすべてのページを載せるべきですか?

いいえ。llms.txt はサイトマップではなく、厳選された目次です。最も重要なコンテンツ ―― ドキュメント、料金ページ、主要プロダクトページ、基礎記事など ―― を5〜25件に絞ってください。ロングテールはサイトマップか llms-full.txt に委ねましょう。

llms-full.txt とは何ですか?

任意のファイルです。最も重要なページの全文をMarkdownで連結したものです。Stripeや Anthropicのような大規模ドキュメントサイトは両方を公開しています。ほとんどのサイトは llms.txt だけで十分です。

llms.txt はGoogleの検索順位に影響しますか?

直接的な影響はありません。Googleはサイトの発見に sitemap.xml を使っており、llms.txt は使っていません。llms.txt が影響するのはAI検索の可視性 ―― ChatGPT、Claude、Perplexityなど ―― であり、これは従来の検索とは別のチャネルとして重要性が増しています。

次のステップ

→ llms.txt 完全ガイド（サイト担当者向けのステップ・バイ・ステップ解説）
→ llms.txt と llms-full.txt の違い（本文バンドルを置くべきタイミング）
→ llms.txt と AI 検索の効果計測の仕方
→ AI 検索に拾われたかを確認する方法
→ llms.txt を生成する（URLを貼り付けるだけで30秒でドラフト完成）
→ 既存の llms.txt を検証する（仕様への準拠をチェック）
→ 解説記事の一覧へ戻る