30 秒速览
robots.txt 告诉爬虫 哪些内容不得抓取。 sitemap.xml 告诉爬虫 网站有哪些 URL。llms.txt 则告诉 AI 系统 你的网站究竟讲的是什么,并以专为机器阅读优化的格式呈现。
它们并不重复。三项不同的职责,三类不同的受众。现代网站发布这三个文件都将受益。
| robots.txt | sitemap.xml | llms.txt | |
|---|---|---|---|
| 用途 | 设置抓取权限 | 列出所有 URL | 为 AI 精选内容摘要 |
| 受众 | 所有爬虫 | 搜索引擎 | AI 系统 |
| 格式 | 纯文本 | XML | Markdown |
| 发布年份 | 1994(事实标准),2022(RFC) | 2005 | 2024 |
| 语气 | 命令式——“禁止” | 清单式——“以下是 URL” | 编辑式——“这些内容最重要” |
| 典型大小 | < 1 KB | 10 KB – 50 MB | 1–20 KB |
| 是否必需? | 否(推荐) | 否(推荐) | 否(逐渐成为惯例) |
1. robots.txt — 门卫
用途:告诉爬虫哪些路径不允许抓取。
位置:固定为 https://yoursite.com/robots.txt。子域名各自拥有独立的文件;子目录不受支持。
格式:纯文本,每行一条规则。依据Robots Exclusion Protocol 定义,2022 年 9 月正式发布为 RFC 9309。
谁来读它:遵守规则的爬虫——Googlebot、Bingbot、GPTBot、ClaudeBot、PerplexityBot 等。恶意抓取程序会无视它;这是预期行为,而非漏洞。 robots.txt 是一种请求,并非强制执行。
User-agent: * Disallow: /admin Disallow: /cart User-agent: GPTBot Allow: / Sitemap: https://yoursite.com/sitemap.xml
常见错误:用默认拒绝规则屏蔽了 GPTBot、 ClaudeBot 或 PerplexityBot。如果这样做,你的 llms.txt 将形同虚设——这些爬虫根本不会去抓取它。 我们的检测工具 会自动标出这类问题。
2. sitemap.xml — 索引卡
用途:告诉爬虫你的网站存在哪些 URL,以及可选的元数据(最后修改时间、更新频率、优先级)。
位置:惯例上位于 /sitemap.xml,但权威来源是 Google Search Console 或 robots.txt 中的 Sitemap: 指令。大型网站会拆分为多个子站点地图,并用一个站点地图索引统一管理。
格式:XML。规范见 sitemaps.org(最后修订于 2008 年,至今仍为权威标准)。
谁来读它:需要完整 URL 清单的搜索引擎——Google、Bing、Yandex 等。目前 AI 助手不直接消费它。
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://yoursite.com/</loc>
<lastmod>2026-05-01</lastmod>
<priority>1.0</priority>
</url>
<url>
<loc>https://yoursite.com/pricing</loc>
<lastmod>2026-04-15</lastmod>
</url>
</urlset>常见错误:以为提交了 sitemap 就能强制 Google 收录某个 URL。并非如此。sitemap 只是关于页面存在性和时效性的提示;排名和收录决策仍由搜索引擎自行决定。
3. llms.txt — AI 的目录页
用途:向 AI 系统提供一份经过精心整理的 Markdown 网站摘要,让它无需解析完整的 HTML、导航栏、脚本和 Cookie 提示条,也能准确回答关于你网站的问题。
位置:固定为 https://yoursite.com/llms.txt。大型网站还可发布 llms-full.txt,即将完整文章正文拼接成 Markdown 的版本。
格式:结构固定的 Markdown:H1 站点名称、块引用摘要、## 分节,以及 - [名称](url): 描述 格式的链接列表项。规范由 Answer.AI 的 Jeremy Howard 起草,于 2024 年 9 月发布。
谁来读它:需要基于你的网站给出答案的 AI 智能体和爬虫。目前已被 Anthropic、Stripe、Cloudflare、Vercel、Mintlify 等众多主流 SaaS 网站采用,且名单还在持续增长。在排名前 1000 的网站中,采用率仍不到 1%,但增长曲线相当陡峭。
# Acme Corp > Open-source database for full-text search across structured documents. ## Docs - [Quickstart](https://acme.example/docs/quickstart): Get a cluster running in 5 minutes. - [API reference](https://acme.example/docs/api): Full HTTP API. ## Optional - [Architecture](https://acme.example/blog/architecture): How the index is sharded.
常见错误:将文件放在错误的位置(如 /.well-known/llms.txt 或某个子目录)。规范表述明确:它必须位于根目录。
三者如何协同工作
它们的重叠程度比你想象的要小得多。
robots.txt划定权限边界——哪些内容可以被抓取。sitemap.xml描述完整的内容范围——你希望搜索引擎了解的每一个 URL。llms.txt筛选出重要的子集——为 AI 精选的“核心内容”指引。
一个典型的小型网站,其 sitemap 可能包含 50–500 个 URL,但 llms.txt 中只有 5–25 条记录。这正是它的设计初衷: llms.txt 是经过编辑筛选的,而非面面俱到的。
缺少某个文件会怎样?
没有 robots.txt
所有爬虫默认“一切允许”。这通常没有问题——只有在需要隐藏某些路径(如管理后台、预发布环境、搜索结果页)时,才需要配置 robots.txt。但若缺少 Sitemap: 指令,搜索引擎将回退到通过链接发现页面,速度会更慢。
没有 sitemap.xml
搜索引擎会爬取你的网站,并通过跟踪链接来发现 URL。对于内部链接完善的网站,这通常够用。但对于层级较深或有分页的内容(如大型商品目录、归档页面),缺少 sitemap 会导致收录速度明显变慢。
没有 llms.txt
AI 助手将解析你的完整 HTML——包括导航栏、脚本、Cookie 提示条等所有内容——并尝试从噪音中提炼出对你网站的描述。有些能成功,但你等于把结果交给了运气。发布了清晰 llms.txt 的网站反馈,AI 系统引用它们时的 token 消耗最多可降低 10 倍,这直接影响被引用的频率。
配置清单
- 发布
sitemap.xml——大多数 CMS(WordPress、Webflow、Shopify、Next.js)会自动生成。确认它已存在于/sitemap.xml。 - 发布
robots.txt——哪怕是最简配置(User-agent: */Allow: //Sitemap: https://yoursite.com/sitemap.xml)也胜过没有。确保没有意外屏蔽 AI 爬虫。 - 生成
llms.txt— 将你的 URL 粘贴到我们的生成器 中,获取一份可编辑后上传的草稿。 - 验证文件 ——将文件提交到 验证工具 进行检查,确认符合规范后再对外发布。
常见问题
llms.txt 会取代 robots.txt 或 sitemap.xml 吗?
不会。它们面向不同的受众,服务于不同的目的。搜索引擎仍依赖 sitemap;爬虫仍遵守 robots.txt。llms.txt 是纯粹的增量补充——一个专为 AI 设计的新层次。
AI 系统现在真的会抓取 llms.txt 吗?
ChatGPT(联网版)、Claude、Perplexity 和 Cursor 在抓取网站进行知识落地时,已知会读取 llms.txt。截至 2026 年,并非所有 AI 系统都支持,但主要玩家已跟进,且支持名单持续增长。
如果我在 robots.txt 中屏蔽了 AI 爬虫,llms.txt 还有用吗?
没用——两者相辅相成。在 robots.txt 中屏蔽 GPTBot 或 ClaudeBot,意味着这些爬虫也无法抓取 llms.txt。如果你希望 AI 了解你的网站,就必须放行它们。
llms.txt 里需要列出每一个页面吗?
不需要。llms.txt 是精选的目录页,而非 sitemap。目标是 5–25 条,代表你最重要的内容:文档、定价、核心产品页、基础文章。长尾内容放在 sitemap,或放入 llms-full.txt 中。
llms-full.txt 是什么?
可选文件。它将你最重要页面的完整 Markdown 拼接在一起。大型文档网站(如 Stripe、Anthropic)会同时发布两者。对大多数网站来说,只有 llms.txt 就已足够。
llms.txt 会影响我的 Google 排名吗?
不会直接影响。Google 用 sitemap.xml 来发现页面,而非 llms.txt。llms.txt 影响的是 AI 搜索可见性——ChatGPT、Claude、Perplexity 等——这正日益成为一个独立的流量渠道。
下一步
- → llms.txt 完整指南 (面向站长的逐步配置教程)
- → 生成你的 llms.txt (粘贴 URL,30 秒内获取草稿)
- → 验证现有 llms.txt 是否符合规范
- → 配置指南 (WordPress、Shopify、Webflow、Vercel 等平台)