深度阅读 · 8 分钟

llms.txt vs robots.txt vs sitemap.xml

三个文件各自做什么,以及为何缺一不可。

你的域名根目录下存放着三个小小的文本文件。其中两个已经存在了二十多年,第三个于 2024 年发布,并在 2026 年开始真正流行起来。它们分别向爬虫和 AI 系统传达三件截然不同的事——但每周仍有团队把它们混为一谈。本文用最直白的语言一次讲清楚。

30 秒速览

robots.txt 告诉爬虫 哪些内容不得抓取 sitemap.xml 告诉爬虫 网站有哪些 URLllms.txt 则告诉 AI 系统 你的网站究竟讲的是什么,并以专为机器阅读优化的格式呈现。

它们并不重复。三项不同的职责,三类不同的受众。现代网站发布这三个文件都将受益。

robots.txtsitemap.xmlllms.txt
用途设置抓取权限列出所有 URL为 AI 精选内容摘要
受众所有爬虫搜索引擎AI 系统
格式纯文本XMLMarkdown
发布年份1994(事实标准),2022(RFC)20052024
语气命令式——“禁止”清单式——“以下是 URL”编辑式——“这些内容最重要”
典型大小< 1 KB10 KB – 50 MB1–20 KB
是否必需?否(推荐)否(推荐)否(逐渐成为惯例)

1. robots.txt — 门卫

用途:告诉爬虫哪些路径不允许抓取。

位置:固定为 https://yoursite.com/robots.txt。子域名各自拥有独立的文件;子目录不受支持。

格式:纯文本,每行一条规则。依据Robots Exclusion Protocol 定义,2022 年 9 月正式发布为 RFC 9309。

谁来读它:遵守规则的爬虫——Googlebot、Bingbot、GPTBot、ClaudeBot、PerplexityBot 等。恶意抓取程序会无视它;这是预期行为,而非漏洞。 robots.txt 是一种请求,并非强制执行。

User-agent: *
Disallow: /admin
Disallow: /cart

User-agent: GPTBot
Allow: /

Sitemap: https://yoursite.com/sitemap.xml

常见错误:用默认拒绝规则屏蔽了 GPTBot ClaudeBotPerplexityBot。如果这样做,你的 llms.txt 将形同虚设——这些爬虫根本不会去抓取它。 我们的检测工具 会自动标出这类问题。

2. sitemap.xml — 索引卡

用途:告诉爬虫你的网站存在哪些 URL,以及可选的元数据(最后修改时间、更新频率、优先级)。

位置:惯例上位于 /sitemap.xml,但权威来源是 Google Search Console 或 robots.txt 中的 Sitemap: 指令。大型网站会拆分为多个子站点地图,并用一个站点地图索引统一管理。

格式:XML。规范见 sitemaps.org(最后修订于 2008 年,至今仍为权威标准)。

谁来读它:需要完整 URL 清单的搜索引擎——Google、Bing、Yandex 等。目前 AI 助手不直接消费它。

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://yoursite.com/</loc>
    <lastmod>2026-05-01</lastmod>
    <priority>1.0</priority>
  </url>
  <url>
    <loc>https://yoursite.com/pricing</loc>
    <lastmod>2026-04-15</lastmod>
  </url>
</urlset>

常见错误:以为提交了 sitemap 就能强制 Google 收录某个 URL。并非如此。sitemap 只是关于页面存在性和时效性的提示;排名和收录决策仍由搜索引擎自行决定。

3. llms.txt — AI 的目录页

用途:向 AI 系统提供一份经过精心整理的 Markdown 网站摘要,让它无需解析完整的 HTML、导航栏、脚本和 Cookie 提示条,也能准确回答关于你网站的问题。

位置:固定为 https://yoursite.com/llms.txt。大型网站还可发布 llms-full.txt,即将完整文章正文拼接成 Markdown 的版本。

格式:结构固定的 Markdown:H1 站点名称、块引用摘要、## 分节,以及 - [名称](url): 描述 格式的链接列表项。规范由 Answer.AI 的 Jeremy Howard 起草,于 2024 年 9 月发布。

谁来读它:需要基于你的网站给出答案的 AI 智能体和爬虫。目前已被 Anthropic、Stripe、Cloudflare、Vercel、Mintlify 等众多主流 SaaS 网站采用,且名单还在持续增长。在排名前 1000 的网站中,采用率仍不到 1%,但增长曲线相当陡峭。

# Acme Corp

> Open-source database for full-text search across structured documents.

## Docs
- [Quickstart](https://acme.example/docs/quickstart): Get a cluster running in 5 minutes.
- [API reference](https://acme.example/docs/api): Full HTTP API.

## Optional
- [Architecture](https://acme.example/blog/architecture): How the index is sharded.

常见错误:将文件放在错误的位置(如 /.well-known/llms.txt 或某个子目录)。规范表述明确:它必须位于根目录。

三者如何协同工作

它们的重叠程度比你想象的要小得多。

  • robots.txt 划定权限边界——哪些内容可以被抓取。
  • sitemap.xml 描述完整的内容范围——你希望搜索引擎了解的每一个 URL。
  • llms.txt 筛选出重要的子集——为 AI 精选的“核心内容”指引。

一个典型的小型网站,其 sitemap 可能包含 50–500 个 URL,但 llms.txt 中只有 5–25 条记录。这正是它的设计初衷: llms.txt 是经过编辑筛选的,而非面面俱到的。

缺少某个文件会怎样?

没有 robots.txt

所有爬虫默认“一切允许”。这通常没有问题——只有在需要隐藏某些路径(如管理后台、预发布环境、搜索结果页)时,才需要配置 robots.txt。但若缺少 Sitemap: 指令,搜索引擎将回退到通过链接发现页面,速度会更慢。

没有 sitemap.xml

搜索引擎会爬取你的网站,并通过跟踪链接来发现 URL。对于内部链接完善的网站,这通常够用。但对于层级较深或有分页的内容(如大型商品目录、归档页面),缺少 sitemap 会导致收录速度明显变慢。

没有 llms.txt

AI 助手将解析你的完整 HTML——包括导航栏、脚本、Cookie 提示条等所有内容——并尝试从噪音中提炼出对你网站的描述。有些能成功,但你等于把结果交给了运气。发布了清晰 llms.txt 的网站反馈,AI 系统引用它们时的 token 消耗最多可降低 10 倍,这直接影响被引用的频率。

配置清单

  1. 发布 sitemap.xml ——大多数 CMS(WordPress、Webflow、Shopify、Next.js)会自动生成。确认它已存在于 /sitemap.xml
  2. 发布 robots.txt ——哪怕是最简配置(User-agent: * / Allow: / / Sitemap: https://yoursite.com/sitemap.xml)也胜过没有。确保没有意外屏蔽 AI 爬虫。
  3. 生成 llms.txt 将你的 URL 粘贴到我们的生成器 中,获取一份可编辑后上传的草稿。
  4. 验证文件 ——将文件提交到 验证工具 进行检查,确认符合规范后再对外发布。

常见问题

llms.txt 会取代 robots.txt 或 sitemap.xml 吗?

不会。它们面向不同的受众,服务于不同的目的。搜索引擎仍依赖 sitemap;爬虫仍遵守 robots.txt。llms.txt 是纯粹的增量补充——一个专为 AI 设计的新层次。

AI 系统现在真的会抓取 llms.txt 吗?

ChatGPT(联网版)、Claude、Perplexity 和 Cursor 在抓取网站进行知识落地时,已知会读取 llms.txt。截至 2026 年,并非所有 AI 系统都支持,但主要玩家已跟进,且支持名单持续增长。

如果我在 robots.txt 中屏蔽了 AI 爬虫,llms.txt 还有用吗?

没用——两者相辅相成。在 robots.txt 中屏蔽 GPTBot 或 ClaudeBot,意味着这些爬虫也无法抓取 llms.txt。如果你希望 AI 了解你的网站,就必须放行它们。

llms.txt 里需要列出每一个页面吗?

不需要。llms.txt 是精选的目录页,而非 sitemap。目标是 5–25 条,代表你最重要的内容:文档、定价、核心产品页、基础文章。长尾内容放在 sitemap,或放入 llms-full.txt 中。

llms-full.txt 是什么?

可选文件。它将你最重要页面的完整 Markdown 拼接在一起。大型文档网站(如 Stripe、Anthropic)会同时发布两者。对大多数网站来说,只有 llms.txt 就已足够。

llms.txt 会影响我的 Google 排名吗?

不会直接影响。Google 用 sitemap.xml 来发现页面,而非 llms.txt。llms.txt 影响的是 AI 搜索可见性——ChatGPT、Claude、Perplexity 等——这正日益成为一个独立的流量渠道。

下一步