1. 为什么现在需要一个新文件
长期以来,网站"被找到""被阅读"的对象始终是 Google 等搜索引擎。为了出现在搜索结果的前十条蓝色链接中, 企业在 SEO 上投入了大量时间与资金。然而,这一前提正在迅速改变。
当用户向 ChatGPT、Claude 或 Perplexity 提问时,返回的不再是链接列表, 而是直接给出答案。这些答案通常会引用 2 到 7 个来源网站, 被引用的网站因此获得流量——这就是所谓"AI 搜索"时代的运作方式。
对网站负责人来说,这带来了两个关键变化:
- 访客入口正从"Google 搜索结果页"逐步向"AI 的回答"迁移。
- 能否被 AI 引用,开始直接影响网站的流量来源。
问题在于,AI 读取网站的方式与 Google 爬虫有所不同。AI 需要加载完整的 HTML, 然后从导航栏、脚本、Cookie 横幅、广告、页脚等元素中逐一筛选, 才能提取出关键信息。这对 AI 而言开销极大,最终导致 "结构复杂的网站不容易被引用"的局面。
为了从网站侧简单地解决这一问题,llms.txt 规范应运而生。 提出者是 Jeremy Howard(Answer.AI 联合创始人、fast.ai 作者)。 自 2024 年 9 月发布以来,该规范已在海外主流网站中加速普及。
2. 术语梳理 —— AIO、GEO、LLMO 与 llms.txt
目前国内对于"面向 AI 搜索的优化"尚无统一叫法。 以下先整理几个常见术语,方便后续阅读。
- AIO(AI Optimization)
- 含义最广,泛指让 AI 正确理解并引用网站内容的一系列优化工作。在国内 Web 行业中,「AIO」这一叫法目前传播较快,也是最常见的表述之一。
- LLMO(LLM Optimization)
- AIO 的子集,特指针对大型语言模型(ChatGPT、Claude、Gemini 等)的优化。在中文技术圈中也有一定使用,强调对模型本身的适配。
- GEO(生成式引擎优化 / Generative Engine Optimization)
- 海外广泛使用的术语,指在 Perplexity、Google AI Overviews 等「生成式搜索引擎」中提升曝光度的优化活动。近年在国内也开始以「GEO」缩写流通。
- llms.txt
- 上述所有优化活动的基础文件规范。放置于网站根目录的 Markdown 文件,作用是让 AI 一眼看清「这个网站是做什么的、哪些页面最重要」。
简而言之,AIO、GEO、LLMO 是策略或活动的名称,而 llms.txt 是落地这些策略的具体手段之一 ——两者是方向与工具的关系。为避免混淆,本指南后续统一使用 "AI 优化"这一表述。
3. llms.txt 解决的具体问题
前面的内容稍显抽象,下面举一个具体例子。 假设您的网站是一家"上海本地的会计师事务所"。
当用户在 ChatGPT 中问:"上海有哪些擅长企业财税的会计师事务所?"时, ChatGPT 会逐一访问候选网站,尝试读取并汇总内容进行比较。 此时,AI 需要处理的内容包括:
- 整站 HTML(从数百 KB 到数 MB 不等)
- 通过 JavaScript 动态渲染的正文(有时根本无法获取)
- 导航栏、页脚、Cookie 提示横幅、广告位
- 需要登录才能访问的区域(无法获取)
这种负担对 AI 来说不可忽视,最终造成 "结构简洁、易于阅读的网站才会被引用"的现象。 相反,放置了 llms.txt 的网站则具备以下优势:
- 一次请求即可获得"网站目录与概览"
- 据报告,AI 需要处理的 Token 量可减少至原来的 约 1/10
- 被引用的概率因此提升
llms.txt 的作用,简单比喻就是"递给来访者一张名片"。 初次见面时,一张信息齐全的名片比一张潦草便条更令人印象深刻。 道理完全相同。
4. 文件结构详解 —— 通过实例理解
llms.txt 仅由 4 个要素构成。先看一个实际示例。
# 申城会计师事务所 > 位于上海,20 年来为客户提供财税咨询与代理记账服务。 ## 服务 - [代理记账](https://example.com/services/bookkeeping): 按月提供规范账务处理,含凭证整理与报表出具。 - [税务申报](https://example.com/services/tax): 增值税、企业所得税等各税种的申报代理与合规审查。 - [企业财税咨询](https://example.com/services/consulting): 针对企业的税务筹划与财务健康诊断。 ## 公司信息 - [公司简介](https://example.com/about): 成立背景、地址与团队介绍。 - [收费标准](https://example.com/pricing): 各项服务的收费说明。 - [联系我们](https://example.com/contact): 预约咨询表单。 ## Optional - [财税资讯](https://example.com/blog): 政策变动解读与案例分享。 - [服务案例](https://example.com/cases): 客户实际成果展示。
这 4 个要素各有明确用途:
- 01
# H1 标题
用一行写明网站名称(或公司名称)。这是告知 AI「这个网站属于谁」的唯一位置,必须放在文件第一行。
- 02
> 概述(引用块)
用 1 到 2 行概括整个网站。AI 在引用时会将这段内容直接当作「标签」使用。建议包含具体且易被搜索到的关键词,例如「位于上海」「20 年」等。
- 03
## 分区(可多个)
按用途将重要页面分组归类,如「服务」「公司信息」「Optional(选读)」,按访客最需要了解的顺序排列。其中「Optional」是规范中定义的特殊标题,向 AI 传达「优先级较低,但需要时可参考」的信号。
- 04
- [链接名称](URL): 描述
各分区的具体条目。描述部分至关重要——仅靠标题 AI 无法判断页面内容,务必附上一句话说明。AI 正是依据这些描述决定针对用户问题引用哪个页面。
规范中还规定了换行、空行、编码、文件大小上限等细节,但无需刻意记忆。 后文介绍的验证工具会自动检测并提示。
5. 常见误解与疑虑解答
以下针对网站负责人普遍反映的问题与顾虑,逐一进行解答。
Q1. 放一个文件真的有用吗?
坦率地说,单凭放置文件就能显著增加流量,这一说法并不准确。llms.txt 在 AI 优化中的地位类似于 SEO 中的"sitemap.xml", 本质上是一种基础设施。没有它,再好的内容也难以有效传达。
不过,部署成本几乎为零(操作不超过一小时),而 AI 搜索流量持续增长几乎是 确定性趋势。"不做的理由"所消耗的精力,很快就会超过"去做"本身的成本。
实际效果很大程度上取决于网站内容质量。llms.txt 只是铺好了路,路的尽头没有吸引人的内容, AI 同样不会引用。
Q2. AI 会不会擅自抓取并学习我的内容?
这里需要做一个重要区分。llms.txt 是为引用(retrieval)服务的文件,而非为训练(training)设计的。
- 训练:AI 模型在构建时,将历史文本纳入训练数据的过程。 若希望阻止此行为,请在
robots.txt中将GPTBot、ClaudeBot设为 Disallow。 - 引用:用户提问的瞬间,AI 实时访问网站并将内容用于回答的过程。
llms.txt的作用正是帮助这类访问高效获取信息。
因此,放置 llms.txt 本身并不等同于"提供训练数据"。 "欢迎引用、拒绝训练"的意愿应通过 robots.txt 表达, 这才是规范的正确用法。
具体写法如下:
User-agent: GPTBot Disallow: / User-agent: ClaudeBot Disallow: / User-agent: PerplexityBot Allow: /
注意:近来部分 AI 并未区分训练用爬虫与引用用爬虫。 仅凭现有标准规范,无法实现完全意义上的"只允许引用"控制, 这一现实局限也请知悉。
Q3. 效果大概什么时候能显现?
AI 的引用机制与 Google 索引不同,并非"爬取后数天内更新"的简单周期, 而是用户提问时 AI 才实时访问网站。这意味着,文件发布后次日,就有可能出现在某位用户的问答结果中。
另一方面,目前业界尚无衡量"自家网站被 ChatGPT 实际引用情况"的标准指标。 近期可通过以下方式间接观察:
- 在访问日志中记录
GPTBot、ClaudeBot、PerplexityBot等 User-Agent 的月度访问次数 - 每月在 ChatGPT、Claude、Perplexity 中实际提问与自家业务相关的问题, 观察是否被列为引用来源
- 在 Google Search Console 的"来源"中,关注是否出现来自 AI 相关域名的流量
Q4. 对 SEO(Google 排名)有影响吗?
对排名没有直接影响。Google 的排名算法目前 并不使用 llms.txt(截至 2026 年 5 月)。
不过存在间接效益。整理 llms.txt 的过程, 需要重新梳理网站结构、核心页面,以及各页标题与摘要, 这些工作对常规 SEO 同样有正向影响。 道理与"整理好 sitemap.xml 有助于 Google 收录"如出一辙。
Q5. 与 robots.txt 和 sitemap.xml 有什么区别?
三者的职责各不相同:
- robots.txt:告诉爬虫"这里不要访问"——访问控制。
- sitemap.xml:告诉搜索引擎"这些 URL 都存在"——全量索引。
- llms.txt:告诉 AI"我们是做什么的,请重点看这里" ——精选目录。
三者互不冲突,相互补充。放好其中一个并不代表可以忽略其他, 理想状态是三者齐备。详细对比请参阅 《llms.txt vs robots.txt vs sitemap.xml》。
Q6. 我们网站规模很小,有必要做吗?
恰恰相反,小型网站往往更容易看到效果。原因如下:
- 大型企业网站结构复杂,AI 难以高效提取信息;而小型网站结构简洁, 配合
llms.txt更容易成为 AI 眼中的"易读网站"。 - 在特定行业或地域被 AI 检索时,竞争对手数量相对较少,被引用的概率相对更高。
- 先行者优势明显。根据 2026 年一项覆盖约 30 万个域名的 SE Ranking 调查,全网 llms.txt 整体采用率约为 10%, 而头部高流量网站的采用率接近于零。
Q7. 需要找外包来做吗?自己能搞定吗?
结论是:完全可以自己完成。只需创建一个文件并上传到 服务器指定位置,比编辑 HTML 页面简单得多。
本指南后半部分将分别介绍 WordPress、Shopify、Wix 及静态 HTML 等 各平台的具体操作步骤。如果您已经能自行更新网站内容, 所需的技术能力已经完全具备。
6. 自行创建并发布 —— 分步操作指南
以下进入实操环节。预计耗时 30 到 60 分钟。
步骤 1. 筛选网站的"核心页面"(5 到 15 个)
先拿纸笔列出来:如果让 AI 代您向别人介绍公司网站, 您最希望它先展示哪些页面?
- 服务或产品列表页,以及各服务的独立介绍页
- 公司简介(负责人、地址、业绩)
- 收费说明页
- 联系我们 / 预约表单
- 主要案例与业绩(如有)
- 阅读量较高的博客文章(如有,选 2 到 3 篇即可)
超过 15 个请精简。llms.txt 不是罗列所有 URL 的地方, 而是严格筛选"最希望被阅读的重要页面"的工具。
步骤 2. 为每个页面写一句"描述"
这是最关键的环节。AI 正是依据这些描述,判断针对用户的问题应该引用哪个页面。 优质描述的特征:
- 包含具体词汇(不是"业界领先的服务", 而是"面向上海企业,数百元起的代理记账服务")
- 一句话收尾(60 字以内为宜)
- 包含该页面独有的信息(与其他页面形成区分)
- 侧重"事实",而非广告口号
步骤 3. 为整个网站写一句"概述"
即 > ◯◯ 引用块中的内容——对整个网站的一句话总结。 这也是 AI 引用时用作"标题标签"的重要字段。 建议有意识地包含行业、所在地、目标客户、成立年限等要素。
反面示例:"秉承客户至上的服务理念。"
正面示例: "位于上海,20 年来为客户提供财税咨询与代理记账服务。"
步骤 4. 将内容保存为文本文件
记事本、Visual Studio Code、Google 文档等任何支持纯文本的工具均可。 参照前述结构示例,将文件保存为 llms.txt。 编码请选择 UTF-8(Windows 记事本在保存对话框中可指定编码)。
步骤 5. 验证文件
上传前,务必检查格式是否符合规范。手工操作容易出现 H1 缺失、 链接格式错误、编码错误等问题,若不处理,AI 可能无法正常读取。
请使用免费验证工具进行检查。
步骤 6. 上传到服务器指定位置
文件必须放在网站根目录,即可通过 https://yoursite.com/llms.txt 直接访问的位置。 放在子目录下(如 /docs/llms.txt 或 /.well-known/llms.txt)将无法被识别。
各平台的具体操作步骤见下一节。
7. 主流建站平台操作方法
以下汇总国内常用建站平台的部署要点。含截图的详细操作指引请参阅 各平台操作指南。
WordPress(自托管)
- 通过 FTP 客户端(如 FileZilla)或主机面板(宝塔面板、cPanel 等)的文件管理器进入网站目录
- 切换到文档根目录(通常为 public_html 或 www)
- 将创建好的 llms.txt 上传至该目录
- 在浏览器中访问 https://yoursite.com/llms.txt,确认内容可正常显示
注: WordPress.com(托管版)不支持在根目录放置自定义文件。仅 WordPress.org 自托管版本可使用此方法。
Shopify
- 进入后台 → 内容 → 文件,上传 llms.txt(但 Shopify 默认将文件存储于 /cdn/shop/files/ 路径下,无法直接放置于根目录)
- 替代方案一:在主题编辑器中配置 /llms.txt 的重定向规则
- 替代方案二(推荐):在应用商店搜索并安装「LLMs.txt Generator」类型的官方应用
注: Shopify 标准功能对根目录文件存放有限制,使用专用应用是最便捷的解决方案。
Wix
- 进入控制台 → 设置 → SEO 工具,查看 robots.txt 附近是否提供自定义文件上传入口
- 截至 2026 年 5 月,Wix 标准功能尚未正式开放在根目录放置任意文本文件的功能
- 临时方案:在网站中创建一个专用的 /llms.txt 独立页面,将内容粘贴至正文(不完全符合规范,但对部分 AI 爬虫有效)
注: Wix 是目前部署 llms.txt 难度最大的平台之一。可考虑在 Webflow 或静态网站上以子域名方式运行,或等待 Wix 官方支持更新。
Webflow
- 进入项目设置 → Hosting → 自定义文件(Custom Files)
- 上传 llms.txt 并将路径设置为根目录 /llms.txt
- 重新发布网站,在浏览器中确认文件可正常访问
注: Webflow 的自定义文件功能支持将文件直接部署至根目录,操作相对直观。
静态 HTML(阿里云 OSS / 腾讯云 COS / GitHub Pages / Netlify / Vercel)
- 阿里云 OSS / 腾讯云 COS:在控制台上传 llms.txt 到 Bucket 根目录,确保访问权限为公开读
- GitHub Pages / Netlify / Vercel:将 llms.txt 放入项目根目录,推送后自动部署
- 在浏览器中访问 /llms.txt 确认内容可正常显示
注: 最简便的方式。正常情况下 5 分钟内即可完成。
国内站点搭建工具(如蘑菇建站等)
- 在平台管理后台查找「自定义文件」「robots.txt 编辑」等相关入口
- 目前大多数国内建站工具尚不支持在根目录直接上传 llms.txt
- 临时方案:若使用了独立域名,可在前端接入 Cloudflare,通过 Cloudflare Workers 或页面规则下发 /llms.txt 的响应
注: 国内建站工具对 llms.txt 的原生支持尚未跟进。建议等待各平台官方支持,或通过 Cloudflare 等方式绕行解决。
8. 发布后如何确认效果
发布后难以立刻量化"成果",但以下 3 项必须逐一确认。
- 01
确认 URL 可正常访问
在浏览器中直接输入 https://yoursite.com/llms.txt,确认内容正常显示。若出现 404 或触发文件下载,说明部署配置存在问题。
- 02
确认 Content-Type 为 text/plain 或 text/markdown
打开浏览器开发者工具(F12)→ Network 面板,刷新页面后查看响应头中的 Content-Type。若显示为 application/octet-stream,部分 AI 将无法正常读取,需在服务器端配置进行修正。
- 03
确认通过全部 12 项规范合规检查
使用本站验证工具每月检查一次。每当网站结构发生变化时,也请及时重新验证。
此外,长期跟踪建议:
- 在访问日志中按月记录
GPTBot/ClaudeBot/PerplexityBot等爬虫的访问次数 - 每月在 ChatGPT、Claude、Perplexity 中提问与自家业务相关的问题, 观察是否出现在引用来源中(若未出现,从内容层面分析缺失原因)
9. 该持续做的与不必做的
该持续做的
- 每季度回顾一次内容:服务新增或下线、收费调整、 人员变动等情况发生时及时更新
- 每月确认一次引用情况:在主流 AI 中实际提问并观察结果
- 新增重要页面时补充条目: 但请控制在 15 条以内,必要时替换原有条目
不必做的
- 每天或每周更新。
llms.txt传递的是网站的整体 骨架,无需频繁修改。 - 将所有页面都列入
llms.txt。 罗列全量 URL 是 sitemap.xml 的职责,请勿混淆。 - 专门为 AI 搜索批量生产新文章。AI 最终引用的是对人类真正有价值的内容。正确的做法是: 写好服务于人的优质内容,再通过
llms.txt准确引导 AI 找到它——这才是这套机制的正确用法。
10. 下一步行动
读到这里,接下来只需动手操作。最快捷的路径只有两步:
- 01
30 秒生成初稿
在本站的生成器中输入您的网站 URL,系统将自动爬取并生成符合规范的草稿。完成度约为 60 到 80 分,但比从头开始手写效率高得多。
- 02
花 5 到 15 分钟修改完善
打开草稿,按照本指南「步骤 2(描述文字)」「步骤 3(网站概述)」的要求,用自己的语言重新表述。完成后即可接近满分水准。
希望本指南能帮助您的网站在 AI 时代被更多人正确地发现与了解。