Leitura longa · 8 min

llms.txt vs robots.txt vs sitemap.xml

O que cada arquivo faz e por que você precisa dos três.

Três pequenos arquivos de texto vivem na raiz do seu domínio. Dois existem há mais de vinte anos. O terceiro foi publicado em 2024 e começou a ganhar tração de verdade em 2026. Juntos, eles comunicam a crawlers e sistemas de IA três coisas completamente diferentes — e ainda assim equipes os confundem toda semana. Este é o guia direto ao ponto.

A resposta em 30 segundos

robots.txt diz aos crawlers o que eles não podem rastrear. sitemap.xml diz aos crawlers quais URLs existem. llms.txt diz aos sistemas de IA sobre o que o seu site realmente trata, em um formato otimizado para que eles possam ler.

Eles não são redundantes. São três funções diferentes para três públicos diferentes. Um site moderno se beneficia de publicar os três.

robots.txtsitemap.xmlllms.txt
FunçãoDefinir permissões de rastreamentoListar todas as URLsCurar o resumo para IA
PúblicoTodos os crawlersMecanismos de buscaSistemas de IA
FormatoTexto simplesXMLMarkdown
Ano de publicação1994 (de facto), 2022 (RFC)20052024
TomImperativo — “não faça”Inventário — “aqui estão as URLs”Editorial — “aqui está o que importa”
Tamanho típico< 1 KB10 KB – 50 MB1–20 KB
Obrigatório?Não (recomendado)Não (recomendado)Não (tornando-se esperado)

1. robots.txt — o porteiro

Propósito: informar aos crawlers quais caminhos eles não têm permissão de acessar.

Localização: sempre em https://yoursite.com/robots.txt. Subdomínios têm o seu próprio. Subdiretórios não são respeitados.

Formato: texto simples, uma regra por linha. Definido pelo Robots Exclusion Protocol, formalizado como RFC 9309 em setembro de 2022.

Quem o lê: crawlers bem-comportados — Googlebot, Bingbot, GPTBot, ClaudeBot, PerplexityBot, etc. Scrapers maliciosos o ignoram; isso é uma característica, não um problema. robots.txt é uma solicitação, não uma imposição.

User-agent: *
Disallow: /admin
Disallow: /cart

User-agent: GPTBot
Allow: /

Sitemap: https://yoursite.com/sitemap.xml

Erro comum: bloquear GPTBot, ClaudeBot ou PerplexityBot com uma regra de negação padrão. Se você fizer isso, o seu llms.txt será inútil — esses crawlers não irão buscá-lo. Nosso verificador sinaliza isso automaticamente.

2. sitemap.xml — o fichário

Propósito: informar aos crawlers quais URLs existem no seu site, além de metadados opcionais (última modificação, frequência de alteração, prioridade).

Localização: convencionalmente em /sitemap.xml, mas a referência canônica vem do Google Search Console ou de uma diretiva Sitemap: no robots.txt. Sites grandes dividem o conteúdo em múltiplos sitemaps sob um índice de sitemaps.

Formato: XML. O esquema está em sitemaps.org (última revisão em 2008, ainda autoritativo).

Quem o lê: mecanismos de busca que precisam de um inventário completo de URLs — Google, Bing, Yandex, etc. Não é consumido diretamente por assistentes de IA hoje.

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://yoursite.com/</loc>
    <lastmod>2026-05-01</lastmod>
    <priority>1.0</priority>
  </url>
  <url>
    <loc>https://yoursite.com/pricing</loc>
    <lastmod>2026-04-15</lastmod>
  </url>
</urlset>

Erro comum: acreditar que um sitemap força o Google a indexar uma URL. Não força. Um sitemap é uma dica sobre existência e atualidade; as decisões de ranqueamento e indexação permanecem com o mecanismo de busca.

3. llms.txt — o sumário para IA

Propósito: oferecer a um sistema de IA um resumo curado em Markdown do seu site, para que ele possa responder perguntas sobre você sem precisar analisar todo o seu HTML, navegação, scripts e banners de cookies.

Localização: sempre em https://yoursite.com/llms.txt. Sites maiores também podem publicar llms-full.txt, uma concatenação dos corpos completos dos artigos em Markdown.

Formato: Markdown com uma estrutura fixa: um H1 com o nome do site, um blockquote de resumo, seções ## e itens de lista de links no formato - [nome](url): descrição. Especificação de Jeremy Howard na Answer.AI, publicada em setembro de 2024.

Quem o lê: agentes de IA e crawlers quando precisam embasar uma resposta no seu site. Já adotado por Anthropic, Stripe, Cloudflare, Vercel, Mintlify e uma lista crescente de grandes sites SaaS. A adoção entre os 1.000 sites mais acessados ainda está abaixo de 1%, mas a curva é íngreme.

# Acme Corp

> Open-source database for full-text search across structured documents.

## Docs
- [Quickstart](https://acme.example/docs/quickstart): Get a cluster running in 5 minutes.
- [API reference](https://acme.example/docs/api): Full HTTP API.

## Optional
- [Architecture](https://acme.example/blog/architecture): How the index is sharded.

Erro comum: colocá-lo no lugar errado (/.well-known/llms.txt ou em um subdiretório). A especificação é inequívoca: ele fica na raiz.

Como os três funcionam juntos

Eles se sobrepõem menos do que você imagina.

  • robots.txt define o limite de permissões — o que pode ser acessado.
  • sitemap.xml descreve a superfície completa — todas as URLs que você quer que um mecanismo de busca conheça.
  • llms.txt seleciona o subconjunto importante — o ponteiro curado “aqui está o que importa” para a IA.

Um site pequeno típico tem 50–500 URLs no seu sitemap, mas apenas 5–25 entradas no seu llms.txt. Esse é o ponto. llms.txt é editorial, não exaustivo.

O que acontece se eu não tiver um deles?

Sem robots.txt

Todos os crawlers assumem “tudo permitido.” Isso geralmente está correto; você só precisa de um robots.txt se tiver caminhos a ocultar (admin, staging, páginas de resultados de busca). No entanto, sem uma diretiva Sitemap:, os mecanismos de busca recorrem à descoberta por links, que é mais lenta.

Sem sitemap.xml

Os mecanismos de busca rastreiam seu site e descobrem URLs seguindo links. Para sites com boa linkagem interna, isso funciona bem. Para conteúdo profundamente aninhado ou paginado (grandes catálogos, arquivos), você verá uma indexação mais lenta sem um sitemap.

Sem llms.txt

Os assistentes de IA analisam seu HTML completo — navegação, scripts, banners de cookies, tudo — e tentam resumir seu site a partir do ruído. Alguns conseguem, mas você está deixando a resposta ao acaso. Sites que publicam um llms.txt bem estruturado relatam até 10× menos uso de tokens quando sistemas de IA os citam, o que afeta diretamente a frequência com que a citação ocorre.

O checklist de configuração

  1. Publique um sitemap.xml — a maioria dos CMSes (WordPress, Webflow, Shopify, Next.js) gera isso automaticamente. Confirme se ele está disponível em /sitemap.xml.
  2. Publique um robots.txt — mesmo um mínimo (User-agent: * / Allow: / / Sitemap: https://yoursite.com/sitemap.xml) é melhor que nada. Certifique-se de que você não está bloqueando crawlers de IA por acidente.
  3. Gere um llms.txt cole sua URL no nosso gerador para obter um rascunho que você pode editar e publicar.
  4. Valide-o — passe o arquivo pelo validador para confirmar que está em conformidade com a especificação antes de anunciá-lo.

FAQ

llms.txt substitui robots.txt ou sitemap.xml?

Não. Eles atendem públicos e propósitos diferentes. Os mecanismos de busca ainda dependem de sitemaps; os crawlers ainda respeitam robots.txt. llms.txt é puramente aditivo — uma nova camada para IA.

Os sistemas de IA realmente buscam llms.txt hoje?

ChatGPT (com navegação), Claude, Perplexity e Cursor já são conhecidos por ler llms.txt quando acessam um site para embasar respostas. Em 2026 ainda não é universal, mas os principais players oferecem suporte e a lista continua crescendo.

Se eu bloquear crawlers de IA no robots.txt, llms.txt ainda ajuda?

Não — eles são complementares. Bloquear GPTBot ou ClaudeBot no robots.txt significa que esses crawlers também não buscarão llms.txt. Se você quer que a IA conheça seu site, você precisa deixá-la entrar.

Devo listar todas as páginas no llms.txt?

Não. llms.txt é um sumário curado, não um sitemap. Busque de 5 a 25 entradas que representem seu conteúdo mais importante: documentação, preços, páginas-chave de produto, artigos fundamentais. Deixe a cauda longa no sitemap ou no llms-full.txt.

E o llms-full.txt?

Opcional. É o Markdown completo das suas páginas mais importantes concatenado. Sites de documentação grandes (Stripe, Anthropic) publicam os dois. Para a maioria dos sites, apenas llms.txt já é suficiente.

llms.txt vai afetar meu ranqueamento no Google?

Não diretamente. O Google usa sitemap.xml para descoberta, não llms.txt. llms.txt afeta a visibilidade na busca com IA — ChatGPT, Claude, Perplexity, etc. — que é cada vez mais um canal separado.

Próximos passos