完整指南 · 阅读 15 分钟

什么是 llms.txt?

面向网站负责人的完整指南(2026 版)。

让 ChatGPT、Claude、Perplexity 等生成式 AI 真正"读懂"您的网站—— 这正是 llms.txt 的价值所在。该规范于 2024 年发布。 目前国内对于相关优化活动的叫法尚未统一,「AIO」「GEO」「LLMO」等术语仍处于混用阶段, 但在海外,Stripe、Anthropic、Cloudflare、Vercel 等主流 SaaS 已陆续完成部署。

本指南专为负责企业网站的网站负责人编写, 目标是让您无需借助外部服务商,凭自己的力量完成全部操作。 对于"放一个文件真的有用吗?""AI 会不会擅自抓取我的内容?" 等常见疑虑,本文也会结合依据逐一回应。

1. 为什么现在需要一个新文件

长期以来,网站"被找到""被阅读"的对象始终是 Google 等搜索引擎。为了出现在搜索结果的前十条蓝色链接中, 企业在 SEO 上投入了大量时间与资金。然而,这一前提正在迅速改变。

当用户向 ChatGPT、Claude 或 Perplexity 提问时,返回的不再是链接列表, 而是直接给出答案。这些答案通常会引用 2 到 7 个来源网站, 被引用的网站因此获得流量——这就是所谓"AI 搜索"时代的运作方式。

对网站负责人来说,这带来了两个关键变化:

  • 访客入口正从"Google 搜索结果页"逐步向"AI 的回答"迁移。
  • 能否被 AI 引用,开始直接影响网站的流量来源。

问题在于,AI 读取网站的方式与 Google 爬虫有所不同。AI 需要加载完整的 HTML, 然后从导航栏、脚本、Cookie 横幅、广告、页脚等元素中逐一筛选, 才能提取出关键信息。这对 AI 而言开销极大,最终导致 "结构复杂的网站不容易被引用"的局面。

为了从网站侧简单地解决这一问题,llms.txt 规范应运而生。 提出者是 Jeremy Howard(Answer.AI 联合创始人、fast.ai 作者)。 自 2024 年 9 月发布以来,该规范已在海外主流网站中加速普及。

2. 术语梳理 —— AIO、GEO、LLMO 与 llms.txt

目前国内对于"面向 AI 搜索的优化"尚无统一叫法。 以下先整理几个常见术语,方便后续阅读。

AIO(AI Optimization)
含义最广,泛指让 AI 正确理解并引用网站内容的一系列优化工作。在国内 Web 行业中,「AIO」这一叫法目前传播较快,也是最常见的表述之一。
LLMO(LLM Optimization)
AIO 的子集,特指针对大型语言模型(ChatGPT、Claude、Gemini 等)的优化。在中文技术圈中也有一定使用,强调对模型本身的适配。
GEO(生成式引擎优化 / Generative Engine Optimization)
海外广泛使用的术语,指在 Perplexity、Google AI Overviews 等「生成式搜索引擎」中提升曝光度的优化活动。近年在国内也开始以「GEO」缩写流通。
llms.txt
上述所有优化活动的基础文件规范。放置于网站根目录的 Markdown 文件,作用是让 AI 一眼看清「这个网站是做什么的、哪些页面最重要」。

简而言之,AIO、GEO、LLMO 是策略或活动的名称,而 llms.txt 是落地这些策略的具体手段之一 ——两者是方向与工具的关系。为避免混淆,本指南后续统一使用 "AI 优化"这一表述。

3. llms.txt 解决的具体问题

前面的内容稍显抽象,下面举一个具体例子。 假设您的网站是一家"上海本地的会计师事务所"。

当用户在 ChatGPT 中问:"上海有哪些擅长企业财税的会计师事务所?"时, ChatGPT 会逐一访问候选网站,尝试读取并汇总内容进行比较。 此时,AI 需要处理的内容包括:

  • 整站 HTML(从数百 KB 到数 MB 不等)
  • 通过 JavaScript 动态渲染的正文(有时根本无法获取)
  • 导航栏、页脚、Cookie 提示横幅、广告位
  • 需要登录才能访问的区域(无法获取)

这种负担对 AI 来说不可忽视,最终造成 "结构简洁、易于阅读的网站才会被引用"的现象。 相反,放置了 llms.txt 的网站则具备以下优势:

  • 一次请求即可获得"网站目录与概览"
  • 据报告,AI 需要处理的 Token 量可减少至原来的 约 1/10
  • 被引用的概率因此提升

llms.txt 的作用,简单比喻就是"递给来访者一张名片"。 初次见面时,一张信息齐全的名片比一张潦草便条更令人印象深刻。 道理完全相同。

4. 文件结构详解 —— 通过实例理解

llms.txt 仅由 4 个要素构成。先看一个实际示例。

# 申城会计师事务所

> 位于上海,20 年来为客户提供财税咨询与代理记账服务。

## 服务
- [代理记账](https://example.com/services/bookkeeping): 按月提供规范账务处理,含凭证整理与报表出具。
- [税务申报](https://example.com/services/tax): 增值税、企业所得税等各税种的申报代理与合规审查。
- [企业财税咨询](https://example.com/services/consulting): 针对企业的税务筹划与财务健康诊断。

## 公司信息
- [公司简介](https://example.com/about): 成立背景、地址与团队介绍。
- [收费标准](https://example.com/pricing): 各项服务的收费说明。
- [联系我们](https://example.com/contact): 预约咨询表单。

## Optional
- [财税资讯](https://example.com/blog): 政策变动解读与案例分享。
- [服务案例](https://example.com/cases): 客户实际成果展示。

这 4 个要素各有明确用途:

  1. 01

    # H1 标题

    用一行写明网站名称(或公司名称)。这是告知 AI「这个网站属于谁」的唯一位置,必须放在文件第一行。

  2. 02

    > 概述(引用块)

    用 1 到 2 行概括整个网站。AI 在引用时会将这段内容直接当作「标签」使用。建议包含具体且易被搜索到的关键词,例如「位于上海」「20 年」等。

  3. 03

    ## 分区(可多个)

    按用途将重要页面分组归类,如「服务」「公司信息」「Optional(选读)」,按访客最需要了解的顺序排列。其中「Optional」是规范中定义的特殊标题,向 AI 传达「优先级较低,但需要时可参考」的信号。

  4. 04

    - [链接名称](URL): 描述

    各分区的具体条目。描述部分至关重要——仅靠标题 AI 无法判断页面内容,务必附上一句话说明。AI 正是依据这些描述决定针对用户问题引用哪个页面。

规范中还规定了换行、空行、编码、文件大小上限等细节,但无需刻意记忆。 后文介绍的验证工具会自动检测并提示。

5. 常见误解与疑虑解答

以下针对网站负责人普遍反映的问题与顾虑,逐一进行解答。

Q1. 放一个文件真的有用吗?

坦率地说,单凭放置文件就能显著增加流量,这一说法并不准确。llms.txt 在 AI 优化中的地位类似于 SEO 中的"sitemap.xml", 本质上是一种基础设施。没有它,再好的内容也难以有效传达。

不过,部署成本几乎为零(操作不超过一小时),而 AI 搜索流量持续增长几乎是 确定性趋势。"不做的理由"所消耗的精力,很快就会超过"去做"本身的成本。

实际效果很大程度上取决于网站内容质量llms.txt 只是铺好了路,路的尽头没有吸引人的内容, AI 同样不会引用。

Q2. AI 会不会擅自抓取并学习我的内容?

这里需要做一个重要区分。llms.txt 是为引用(retrieval)服务的文件,而非为训练(training)设计的。

  • 训练:AI 模型在构建时,将历史文本纳入训练数据的过程。 若希望阻止此行为,请在 robots.txt 中将 GPTBotClaudeBot 设为 Disallow。
  • 引用:用户提问的瞬间,AI 实时访问网站并将内容用于回答的过程。llms.txt 的作用正是帮助这类访问高效获取信息。

因此,放置 llms.txt 本身并不等同于"提供训练数据"。 "欢迎引用、拒绝训练"的意愿应通过 robots.txt 表达, 这才是规范的正确用法。

具体写法如下:

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: PerplexityBot
Allow: /

注意:近来部分 AI 并未区分训练用爬虫与引用用爬虫。 仅凭现有标准规范,无法实现完全意义上的"只允许引用"控制, 这一现实局限也请知悉。

Q3. 效果大概什么时候能显现?

AI 的引用机制与 Google 索引不同,并非"爬取后数天内更新"的简单周期, 而是用户提问时 AI 才实时访问网站。这意味着,文件发布后次日,就有可能出现在某位用户的问答结果中

另一方面,目前业界尚无衡量"自家网站被 ChatGPT 实际引用情况"的标准指标。 近期可通过以下方式间接观察:

  • 在访问日志中记录 GPTBotClaudeBotPerplexityBot 等 User-Agent 的月度访问次数
  • 每月在 ChatGPT、Claude、Perplexity 中实际提问与自家业务相关的问题, 观察是否被列为引用来源
  • 在 Google Search Console 的"来源"中,关注是否出现来自 AI 相关域名的流量

Q4. 对 SEO(Google 排名)有影响吗?

对排名没有直接影响。Google 的排名算法目前 并不使用 llms.txt(截至 2026 年 5 月)。

不过存在间接效益。整理 llms.txt 的过程, 需要重新梳理网站结构、核心页面,以及各页标题与摘要, 这些工作对常规 SEO 同样有正向影响。 道理与"整理好 sitemap.xml 有助于 Google 收录"如出一辙。

Q5. 与 robots.txt 和 sitemap.xml 有什么区别?

三者的职责各不相同:

  • robots.txt:告诉爬虫"这里不要访问"——访问控制。
  • sitemap.xml:告诉搜索引擎"这些 URL 都存在"——全量索引。
  • llms.txt:告诉 AI"我们是做什么的,请重点看这里" ——精选目录

三者互不冲突,相互补充。放好其中一个并不代表可以忽略其他, 理想状态是三者齐备。详细对比请参阅 《llms.txt vs robots.txt vs sitemap.xml》

Q6. 我们网站规模很小,有必要做吗?

恰恰相反,小型网站往往更容易看到效果。原因如下:

  • 大型企业网站结构复杂,AI 难以高效提取信息;而小型网站结构简洁, 配合 llms.txt 更容易成为 AI 眼中的"易读网站"。
  • 在特定行业或地域被 AI 检索时,竞争对手数量相对较少,被引用的概率相对更高。
  • 先行者优势明显。根据 2026 年一项覆盖约 30 万个域名的 SE Ranking 调查,全网 llms.txt 整体采用率约为 10%, 而头部高流量网站的采用率接近于零。

Q7. 需要找外包来做吗?自己能搞定吗?

结论是:完全可以自己完成。只需创建一个文件并上传到 服务器指定位置,比编辑 HTML 页面简单得多。

本指南后半部分将分别介绍 WordPress、Shopify、Wix 及静态 HTML 等 各平台的具体操作步骤。如果您已经能自行更新网站内容, 所需的技术能力已经完全具备。

6. 自行创建并发布 —— 分步操作指南

以下进入实操环节。预计耗时 30 到 60 分钟。

步骤 1. 筛选网站的"核心页面"(5 到 15 个)

先拿纸笔列出来:如果让 AI 代您向别人介绍公司网站, 您最希望它先展示哪些页面?

  • 服务或产品列表页,以及各服务的独立介绍页
  • 公司简介(负责人、地址、业绩)
  • 收费说明页
  • 联系我们 / 预约表单
  • 主要案例与业绩(如有)
  • 阅读量较高的博客文章(如有,选 2 到 3 篇即可)

超过 15 个请精简llms.txt 不是罗列所有 URL 的地方, 而是严格筛选"最希望被阅读的重要页面"的工具。

步骤 2. 为每个页面写一句"描述"

这是最关键的环节。AI 正是依据这些描述,判断针对用户的问题应该引用哪个页面。 优质描述的特征:

  • 包含具体词汇(不是"业界领先的服务", 而是"面向上海企业,数百元起的代理记账服务")
  • 一句话收尾(60 字以内为宜)
  • 包含该页面独有的信息(与其他页面形成区分)
  • 侧重"事实",而非广告口号

步骤 3. 为整个网站写一句"概述"

> ◯◯ 引用块中的内容——对整个网站的一句话总结。 这也是 AI 引用时用作"标题标签"的重要字段。 建议有意识地包含行业、所在地、目标客户、成立年限等要素。

反面示例:"秉承客户至上的服务理念。"

正面示例: "位于上海,20 年来为客户提供财税咨询与代理记账服务。"

步骤 4. 将内容保存为文本文件

记事本、Visual Studio Code、Google 文档等任何支持纯文本的工具均可。 参照前述结构示例,将文件保存为 llms.txt。 编码请选择 UTF-8(Windows 记事本在保存对话框中可指定编码)。

步骤 5. 验证文件

上传前,务必检查格式是否符合规范。手工操作容易出现 H1 缺失、 链接格式错误、编码错误等问题,若不处理,AI 可能无法正常读取。

请使用免费验证工具进行检查。

llms.txt 验证工具

将文件内容粘贴进去,即可自动完成 12 项规范合规检查,并以中文显示需要修正的问题。

打开验证工具 →

步骤 6. 上传到服务器指定位置

文件必须放在网站根目录,即可通过 https://yoursite.com/llms.txt 直接访问的位置。 放在子目录下(如 /docs/llms.txt /.well-known/llms.txt)将无法被识别。

各平台的具体操作步骤见下一节。

7. 主流建站平台操作方法

以下汇总国内常用建站平台的部署要点。含截图的详细操作指引请参阅 各平台操作指南

WordPress(自托管)

  1. 通过 FTP 客户端(如 FileZilla)或主机面板(宝塔面板、cPanel 等)的文件管理器进入网站目录
  2. 切换到文档根目录(通常为 public_html 或 www)
  3. 将创建好的 llms.txt 上传至该目录
  4. 在浏览器中访问 https://yoursite.com/llms.txt,确认内容可正常显示

注: WordPress.com(托管版)不支持在根目录放置自定义文件。仅 WordPress.org 自托管版本可使用此方法。

Shopify

  1. 进入后台 → 内容 → 文件,上传 llms.txt(但 Shopify 默认将文件存储于 /cdn/shop/files/ 路径下,无法直接放置于根目录)
  2. 替代方案一:在主题编辑器中配置 /llms.txt 的重定向规则
  3. 替代方案二(推荐):在应用商店搜索并安装「LLMs.txt Generator」类型的官方应用

注: Shopify 标准功能对根目录文件存放有限制,使用专用应用是最便捷的解决方案。

Wix

  1. 进入控制台 → 设置 → SEO 工具,查看 robots.txt 附近是否提供自定义文件上传入口
  2. 截至 2026 年 5 月,Wix 标准功能尚未正式开放在根目录放置任意文本文件的功能
  3. 临时方案:在网站中创建一个专用的 /llms.txt 独立页面,将内容粘贴至正文(不完全符合规范,但对部分 AI 爬虫有效)

注: Wix 是目前部署 llms.txt 难度最大的平台之一。可考虑在 Webflow 或静态网站上以子域名方式运行,或等待 Wix 官方支持更新。

Webflow

  1. 进入项目设置 → Hosting → 自定义文件(Custom Files)
  2. 上传 llms.txt 并将路径设置为根目录 /llms.txt
  3. 重新发布网站,在浏览器中确认文件可正常访问

注: Webflow 的自定义文件功能支持将文件直接部署至根目录,操作相对直观。

静态 HTML(阿里云 OSS / 腾讯云 COS / GitHub Pages / Netlify / Vercel)

  1. 阿里云 OSS / 腾讯云 COS:在控制台上传 llms.txt 到 Bucket 根目录,确保访问权限为公开读
  2. GitHub Pages / Netlify / Vercel:将 llms.txt 放入项目根目录,推送后自动部署
  3. 在浏览器中访问 /llms.txt 确认内容可正常显示

注: 最简便的方式。正常情况下 5 分钟内即可完成。

国内站点搭建工具(如蘑菇建站等)

  1. 在平台管理后台查找「自定义文件」「robots.txt 编辑」等相关入口
  2. 目前大多数国内建站工具尚不支持在根目录直接上传 llms.txt
  3. 临时方案:若使用了独立域名,可在前端接入 Cloudflare,通过 Cloudflare Workers 或页面规则下发 /llms.txt 的响应

注: 国内建站工具对 llms.txt 的原生支持尚未跟进。建议等待各平台官方支持,或通过 Cloudflare 等方式绕行解决。

8. 发布后如何确认效果

发布后难以立刻量化"成果",但以下 3 项必须逐一确认。

  1. 01

    确认 URL 可正常访问

    在浏览器中直接输入 https://yoursite.com/llms.txt,确认内容正常显示。若出现 404 或触发文件下载,说明部署配置存在问题。

  2. 02

    确认 Content-Type 为 text/plain 或 text/markdown

    打开浏览器开发者工具(F12)→ Network 面板,刷新页面后查看响应头中的 Content-Type。若显示为 application/octet-stream,部分 AI 将无法正常读取,需在服务器端配置进行修正。

  3. 03

    确认通过全部 12 项规范合规检查

    使用本站验证工具每月检查一次。每当网站结构发生变化时,也请及时重新验证。

此外,长期跟踪建议:

  • 在访问日志中按月记录 GPTBot / ClaudeBot / PerplexityBot 等爬虫的访问次数
  • 每月在 ChatGPT、Claude、Perplexity 中提问与自家业务相关的问题, 观察是否出现在引用来源中(若未出现,从内容层面分析缺失原因)

9. 该持续做的与不必做的

该持续做的

  • 每季度回顾一次内容:服务新增或下线、收费调整、 人员变动等情况发生时及时更新
  • 每月确认一次引用情况:在主流 AI 中实际提问并观察结果
  • 新增重要页面时补充条目: 但请控制在 15 条以内,必要时替换原有条目

不必做的

  • 每天或每周更新。llms.txt 传递的是网站的整体 骨架,无需频繁修改。
  • 将所有页面都列入 llms.txt。 罗列全量 URL 是 sitemap.xml 的职责,请勿混淆。
  • 专门为 AI 搜索批量生产新文章。AI 最终引用的是对人类真正有价值的内容。正确的做法是: 写好服务于人的优质内容,再通过 llms.txt准确引导 AI 找到它——这才是这套机制的正确用法。

10. 下一步行动

读到这里,接下来只需动手操作。最快捷的路径只有两步:

  1. 01

    30 秒生成初稿

    在本站的生成器中输入您的网站 URL,系统将自动爬取并生成符合规范的草稿。完成度约为 60 到 80 分,但比从头开始手写效率高得多。

  2. 02

    花 5 到 15 分钟修改完善

    打开草稿,按照本指南「步骤 2(描述文字)」「步骤 3(网站概述)」的要求,用自己的语言重新表述。完成后即可接近满分水准。

用生成器创建初稿

粘贴网站 URL,系统即可自动爬取并当场生成符合规范的 llms.txt。无需注册,免费使用。

打开生成器 →

希望本指南能帮助您的网站在 AI 时代被更多人正确地发现与了解。