llms.txt vs robots.txt vs sitemap.xml：三个文件各司其职，缺一不可

30 秒速览

robots.txt 告诉爬虫 哪些内容不得抓取。 sitemap.xml 告诉爬虫 网站有哪些 URL。llms.txt 则告诉 AI 系统 你的网站究竟讲的是什么，并以专为机器阅读优化的格式呈现。

它们并不重复。三项不同的职责，三类不同的受众。现代网站发布这三个文件都将受益。

	robots.txt	sitemap.xml	llms.txt
用途	设置抓取权限	列出所有 URL	为 AI 精选内容摘要
受众	所有爬虫	搜索引擎	AI 系统
格式	纯文本	XML	Markdown
发布年份	1994（事实标准），2022（RFC）	2005	2024
语气	命令式——“禁止”	清单式——“以下是 URL”	编辑式——“这些内容最重要”
典型大小	< 1 KB	10 KB – 50 MB	1–20 KB
是否必需？	否（推荐）	否（推荐）	否（逐渐成为惯例）

1. robots.txt — 门卫

用途：告诉爬虫哪些路径不允许抓取。

位置：固定为 https://yoursite.com/robots.txt。子域名各自拥有独立的文件；子目录不受支持。

格式：纯文本，每行一条规则。依据Robots Exclusion Protocol 定义，2022 年 9 月正式发布为 RFC 9309。

谁来读它：遵守规则的爬虫——Googlebot、Bingbot、GPTBot、ClaudeBot、PerplexityBot 等。恶意抓取程序会无视它；这是预期行为，而非漏洞。 robots.txt 是一种请求，并非强制执行。

User-agent: *
Disallow: /admin
Disallow: /cart

User-agent: GPTBot
Allow: /

Sitemap: https://yoursite.com/sitemap.xml

常见错误：用默认拒绝规则屏蔽了 GPTBot、 ClaudeBot 或 PerplexityBot。如果这样做，你的 llms.txt 将形同虚设——这些爬虫根本不会去抓取它。我们的检测工具会自动标出这类问题。

2. sitemap.xml — 索引卡

用途：告诉爬虫你的网站存在哪些 URL，以及可选的元数据（最后修改时间、更新频率、优先级）。

位置：惯例上位于 /sitemap.xml，但权威来源是 Google Search Console 或 robots.txt 中的 Sitemap: 指令。大型网站会拆分为多个子站点地图，并用一个站点地图索引统一管理。

格式：XML。规范见 sitemaps.org（最后修订于 2008 年，至今仍为权威标准）。

谁来读它：需要完整 URL 清单的搜索引擎——Google、Bing、Yandex 等。目前 AI 助手不直接消费它。

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://yoursite.com/</loc>
    <lastmod>2026-05-01</lastmod>
    <priority>1.0</priority>
  </url>
  <url>
    <loc>https://yoursite.com/pricing</loc>
    <lastmod>2026-04-15</lastmod>
  </url>
</urlset>

常见错误：以为提交了 sitemap 就能强制 Google 收录某个 URL。并非如此。sitemap 只是关于页面存在性和时效性的提示；排名和收录决策仍由搜索引擎自行决定。

3. llms.txt — AI 的目录页

用途：向 AI 系统提供一份经过精心整理的 Markdown 网站摘要，让它无需解析完整的 HTML、导航栏、脚本和 Cookie 提示条，也能准确回答关于你网站的问题。

位置：固定为 https://yoursite.com/llms.txt。大型网站还可发布 llms-full.txt，即将完整文章正文拼接成 Markdown 的版本。

格式：结构固定的 Markdown：H1 站点名称、块引用摘要、## 分节，以及 - [名称](url): 描述 格式的链接列表项。规范由 Answer.AI 的 Jeremy Howard 起草，于 2024 年 9 月发布。

谁来读它：需要基于你的网站给出答案的 AI 智能体和爬虫。目前已被 Anthropic、Stripe、Cloudflare、Vercel、Mintlify 等众多主流 SaaS 网站采用，且名单还在持续增长。在排名前 1000 的网站中，采用率仍不到 1%，但增长曲线相当陡峭。

# Acme Corp

> Open-source database for full-text search across structured documents.

## Docs
- [Quickstart](https://acme.example/docs/quickstart): Get a cluster running in 5 minutes.
- [API reference](https://acme.example/docs/api): Full HTTP API.

## Optional
- [Architecture](https://acme.example/blog/architecture): How the index is sharded.

常见错误：将文件放在错误的位置（如 /.well-known/llms.txt 或某个子目录）。规范表述明确：它必须位于根目录。

三者如何协同工作

它们的重叠程度比你想象的要小得多。

robots.txt 划定权限边界——哪些内容可以被抓取。
sitemap.xml 描述完整的内容范围——你希望搜索引擎了解的每一个 URL。
llms.txt 筛选出重要的子集——为 AI 精选的“核心内容”指引。

一个典型的小型网站，其 sitemap 可能包含 50–500 个 URL，但 llms.txt 中只有 5–25 条记录。这正是它的设计初衷： llms.txt 是经过编辑筛选的，而非面面俱到的。

缺少某个文件会怎样？

没有 robots.txt

所有爬虫默认“一切允许”。这通常没有问题——只有在需要隐藏某些路径（如管理后台、预发布环境、搜索结果页）时，才需要配置 robots.txt。但若缺少 Sitemap: 指令，搜索引擎将回退到通过链接发现页面，速度会更慢。

没有 sitemap.xml

搜索引擎会爬取你的网站，并通过跟踪链接来发现 URL。对于内部链接完善的网站，这通常够用。但对于层级较深或有分页的内容（如大型商品目录、归档页面），缺少 sitemap 会导致收录速度明显变慢。

没有 llms.txt

AI 助手将解析你的完整 HTML——包括导航栏、脚本、Cookie 提示条等所有内容——并尝试从噪音中提炼出对你网站的描述。有些能成功，但你等于把结果交给了运气。发布了清晰 llms.txt 的网站反馈，AI 系统引用它们时的 token 消耗最多可降低 10 倍，这直接影响被引用的频率。

配置清单

发布 sitemap.xml ——大多数 CMS（WordPress、Webflow、Shopify、Next.js）会自动生成。确认它已存在于 /sitemap.xml。
发布 robots.txt ——哪怕是最简配置（User-agent: * / Allow: / / Sitemap: https://yoursite.com/sitemap.xml）也胜过没有。确保没有意外屏蔽 AI 爬虫。
生成 llms.txt — 将你的 URL 粘贴到我们的生成器中，获取一份可编辑后上传的草稿。
验证文件 ——将文件提交到验证工具进行检查，确认符合规范后再对外发布。

常见问题

llms.txt 会取代 robots.txt 或 sitemap.xml 吗？

不会。它们面向不同的受众，服务于不同的目的。搜索引擎仍依赖 sitemap；爬虫仍遵守 robots.txt。llms.txt 是纯粹的增量补充——一个专为 AI 设计的新层次。

AI 系统现在真的会抓取 llms.txt 吗？

ChatGPT（联网版）、Claude、Perplexity 和 Cursor 在抓取网站进行知识落地时，已知会读取 llms.txt。截至 2026 年，并非所有 AI 系统都支持，但主要玩家已跟进，且支持名单持续增长。

如果我在 robots.txt 中屏蔽了 AI 爬虫，llms.txt 还有用吗？

没用——两者相辅相成。在 robots.txt 中屏蔽 GPTBot 或 ClaudeBot，意味着这些爬虫也无法抓取 llms.txt。如果你希望 AI 了解你的网站，就必须放行它们。

llms.txt 里需要列出每一个页面吗？

不需要。llms.txt 是精选的目录页，而非 sitemap。目标是 5–25 条，代表你最重要的内容：文档、定价、核心产品页、基础文章。长尾内容放在 sitemap，或放入 llms-full.txt 中。

llms-full.txt 是什么？

可选文件。它将你最重要页面的完整 Markdown 拼接在一起。大型文档网站（如 Stripe、Anthropic）会同时发布两者。对大多数网站来说，只有 llms.txt 就已足够。

llms.txt 会影响我的 Google 排名吗？

不会直接影响。Google 用 sitemap.xml 来发现页面，而非 llms.txt。llms.txt 影响的是 AI 搜索可见性——ChatGPT、Claude、Perplexity 等——这正日益成为一个独立的流量渠道。

下一步

→ llms.txt 完整指南（面向站长的逐步配置教程）
→ 生成你的 llms.txt （粘贴 URL，30 秒内获取草稿）
→ 验证现有 llms.txt 是否符合规范
→ 配置指南（WordPress、Shopify、Webflow、Vercel 等平台）