Lectura larga · 8 min

llms.txt vs robots.txt vs sitemap.xml

Qué hace cada archivo y por qué los necesitas todos.

Tres pequeños archivos de texto viven en la raíz de tu dominio. Dos existen desde hace más de veinte años. El tercero se publicó en 2024 y empezó a ganar tracción real en 2026. Juntos, le comunican a los rastreadores y los sistemas de IA tres cosas completamente distintas — y aun así los equipos los confunden cada semana. Aquí tienes la explicación en lenguaje claro.

La respuesta en 30 segundos

robots.txt les dice a los rastreadores qué no pueden rastrear. sitemap.xml les dice a los rastreadores qué URLs existen. llms.txt le dice a los sistemas de IA de qué trata realmente tu sitio, en un formato optimizado para que ellos lo lean.

No son redundantes. Tres trabajos distintos, tres audiencias distintas. Un sitio moderno se beneficia de publicar los tres.

robots.txtsitemap.xmlllms.txt
FunciónDefinir permisos de rastreoListar todas las URLsCurar el resumen para IA
AudienciaTodos los rastreadoresMotores de búsquedaSistemas de IA
FormatoTexto planoXMLMarkdown
Año de publicación1994 (de facto), 2022 (RFC)20052024
TonoImperativo — “no hagas”Inventario — “estas son las URLs”Editorial — “esto es lo que importa”
Tamaño típico< 1 KB10 KB – 50 MB1–20 KB
¿Obligatorio?No (recomendado)No (recomendado)No (cada vez más esperado)

1. robots.txt — el portero

Propósito: indicarles a los rastreadores qué rutas no tienen permitido visitar.

Ubicación: siempre en https://yoursite.com/robots.txt. Los subdominios tienen el suyo propio. Las rutas de subdirectorio no se respetan.

Formato: texto plano, una regla por línea. Definido por el Robots Exclusion Protocol, formalizado como RFC 9309 en septiembre de 2022.

Quién lo lee: los rastreadores que respetan las reglas — Googlebot, Bingbot, GPTBot, ClaudeBot, PerplexityBot, etc. Los scrapers maliciosos lo ignoran; eso es una característica, no un defecto. robots.txt es una solicitud, no una imposición.

User-agent: *
Disallow: /admin
Disallow: /cart

User-agent: GPTBot
Allow: /

Sitemap: https://yoursite.com/sitemap.xml

Error frecuente: bloquear GPTBot, ClaudeBot o PerplexityBot con una regla de denegación por defecto. Si lo haces, tu llms.txt no sirve de nada — esos rastreadores tampoco lo van a leer. Nuestro verificador detecta esto automáticamente.

2. sitemap.xml — el índice

Propósito: decirles a los rastreadores qué URLs existen en tu sitio, junto con metadatos opcionales (fecha de modificación, frecuencia de cambio, prioridad).

Ubicación: convencionalmente en /sitemap.xml, aunque la referencia canónica proviene de Google Search Console o de una directiva Sitemap: en robots.txt. Los sitios grandes dividen el contenido en varios sitemaps bajo un índice de sitemaps.

Formato: XML. El esquema está en sitemaps.org (última revisión 2008, sigue siendo la referencia).

Quién lo lee: los motores de búsqueda que necesitan un inventario completo de URLs — Google, Bing, Yandex, etc. Los asistentes de IA no lo consumen directamente hoy en día.

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://yoursite.com/</loc>
    <lastmod>2026-05-01</lastmod>
    <priority>1.0</priority>
  </url>
  <url>
    <loc>https://yoursite.com/pricing</loc>
    <lastmod>2026-04-15</lastmod>
  </url>
</urlset>

Error frecuente: creer que el sitemap obliga a Google a indexar una URL. No es así. Un sitemap es una pista sobre la existencia y la actualidad del contenido; las decisiones de indexación y posicionamiento las toma el motor de búsqueda.

3. llms.txt — el índice de contenidos para la IA

Propósito: darle a un sistema de IA un resumen curado en Markdown de tu sitio, para que pueda responder preguntas sobre ti sin tener que analizar todo el HTML, la navegación, los scripts y los banners de cookies.

Ubicación: siempre en https://yoursite.com/llms.txt. Los sitios más grandes también pueden publicar llms-full.txt, una concatenación de los cuerpos completos de los artículos en Markdown.

Formato: Markdown con una estructura fija: un H1 con el nombre del sitio, un blockquote de resumen, secciones ## y elementos de lista con formato - [nombre](url): descripción. Especificación de Jeremy Howard en Answer.AI, publicada en septiembre de 2024.

Quién lo lee: agentes de IA y rastreadores cuando necesitan basar una respuesta en tu sitio. Ya lo han adoptado Anthropic, Stripe, Cloudflare, Vercel, Mintlify y una lista creciente de grandes sitios SaaS. La adopción entre los 1.000 sitios más importantes sigue siendo inferior al 1 %, pero la curva es pronunciada.

# Acme Corp

> Open-source database for full-text search across structured documents.

## Docs
- [Quickstart](https://acme.example/docs/quickstart): Get a cluster running in 5 minutes.
- [API reference](https://acme.example/docs/api): Full HTTP API.

## Optional
- [Architecture](https://acme.example/blog/architecture): How the index is sharded.

Error frecuente: colocarlo en el lugar equivocado (/.well-known/llms.txt o en un subdirectorio). La especificación es clara: debe estar en la raíz.

Cómo funcionan los tres juntos

Se solapan menos de lo que podrías pensar.

  • robots.txt establece el límite de permisos — qué puede rastrearse en absoluto.
  • sitemap.xml describe la superficie completa — cada URL que quieres que un motor de búsqueda conozca.
  • llms.txt selecciona el subconjunto importante — el puntero curado de «esto es lo que importa» para la IA.

Un sitio pequeño típico tiene entre 50 y 500 URLs en su sitemap, pero solo entre 5 y 25 entradas en su llms.txt. Ese es el objetivo. llms.txt es editorial, no exhaustivo.

¿Qué pasa si me falta uno?

Sin robots.txt

Todos los rastreadores asumen que «todo está permitido». Esto suele estar bien; solo necesitas un robots.txt si tienes rutas que ocultar (admin, entornos de prueba, páginas de resultados de búsqueda). Sin embargo, sin una directiva Sitemap:, los motores de búsqueda recurren al descubrimiento por enlaces, que es más lento.

Sin sitemap.xml

Los motores de búsqueda rastrean tu sitio y descubren URLs siguiendo enlaces. Para sitios con una buena estructura de enlaces internos esto funciona bien. Para contenido muy anidado o paginado (grandes catálogos, archivos), verás una indexación más lenta sin un sitemap.

Sin llms.txt

Los asistentes de IA analizan todo tu HTML — navegación, scripts, banners de cookies, todo — e intentan resumir tu sitio a partir del ruido. Algunos lo logran, pero estás dejando la respuesta al azar. Los sitios que publican un llms.txt limpio reportan un consumo de tokens hasta 10 veces menor cuando los sistemas de IA los citan, lo que afecta directamente la frecuencia con que ocurren esas citas.

La lista de verificación

  1. Publica un sitemap.xml — la mayoría de los CMS (WordPress, Webflow, Shopify, Next.js) lo generan automáticamente. Confirma que está disponible en /sitemap.xml.
  2. Publica un robots.txt — incluso uno mínimo (User-agent: * / Allow: / / Sitemap: https://yoursite.com/sitemap.xml) es mejor que nada. Asegúrate de no estar bloqueando accidentalmente los rastreadores de IA.
  3. Genera un llms.txt pega tu URL en nuestro generador para obtener un borrador que puedes editar y subir.
  4. Valídalo — pasa el archivo por el validador para confirmar que cumple con la especificación antes de publicarlo.

Preguntas frecuentes

¿llms.txt reemplaza a robots.txt o a sitemap.xml?

No. Sirven a audiencias y propósitos distintos. Los motores de búsqueda siguen dependiendo de los sitemaps; los rastreadores siguen respetando robots.txt. llms.txt es puramente aditivo: una nueva capa para la IA.

¿Los sistemas de IA realmente leen llms.txt hoy en día?

ChatGPT (con navegación), Claude, Perplexity y Cursor ya se sabe que leen llms.txt cuando visitan un sitio para fundamentar una respuesta. A partir de 2026 no es universal, pero los principales actores lo soportan y la lista sigue creciendo.

Si bloqueo los rastreadores de IA en robots.txt, ¿sigue siendo útil llms.txt?

No, son complementarios. Bloquear GPTBot o ClaudeBot en robots.txt significa que esos rastreadores tampoco van a leer llms.txt. Si quieres que la IA conozca tu sitio, tienes que dejarla entrar.

¿Debo listar todas las páginas en llms.txt?

No. llms.txt es un índice de contenidos curado, no un sitemap. Apunta a entre 5 y 25 entradas que representen tu contenido más importante: documentación, precios, páginas clave de producto, artículos fundamentales. El resto ponlo en el sitemap o en llms-full.txt.

¿Qué hay de llms-full.txt?

Es opcional. Contiene el Markdown completo de tus páginas más importantes concatenado. Los grandes sitios de documentación (Stripe, Anthropic) publican ambos. Para la mayoría de los sitios, solo llms.txt es suficiente.

¿llms.txt afecta mi posicionamiento en Google?

No directamente. Google usa sitemap.xml para el descubrimiento, no llms.txt. llms.txt afecta la visibilidad en la búsqueda con IA — ChatGPT, Claude, Perplexity, etc. — que cada vez más es un canal independiente.

Próximos pasos