Lettura approfondita · 8 min

llms.txt vs robots.txt vs sitemap.xml

Cosa fa ogni file e perché ti servono tutti e tre.

Tre piccoli file di testo vivono nella root del tuo dominio. Due esistono da oltre vent’anni. Il terzo è stato pubblicato nel 2024 e ha iniziato a prendere piede davvero nel 2026. Insieme, dicono ai crawler e ai sistemi AI tre cose completamente diverse — eppure i team continuano a confonderli ogni settimana. Ecco la spiegazione in parole semplici.

La risposta in 30 secondi

robots.txt dice ai crawler cosa non possono scansionare. sitemap.xml dice ai crawler quali URL esistono. llms.txt dice ai sistemi AI di cosa parla davvero il tuo sito, in un formato ottimizzato per la loro lettura.

Non sono ridondanti. Tre compiti diversi, tre destinatari diversi. Un sito moderno trae vantaggio dalla pubblicazione di tutti e tre.

robots.txtsitemap.xmlllms.txt
FunzioneImpostare i permessi di scansioneElencare tutti gli URLCurare il sommario per l’AI
DestinatariTutti i crawlerMotori di ricercaSistemi AI
FormatoTesto sempliceXMLMarkdown
Anno di pubblicazione1994 (de facto), 2022 (RFC)20052024
TonoImperativo — “non farlo”Inventario — “ecco gli URL”Editoriale — “ecco cosa conta”
Dimensione tipica< 1 KB10 KB – 50 MB1–20 KB
Obbligatorio?No (consigliato)No (consigliato)No (sempre più atteso)

1. robots.txt — il buttafuori

Scopo: indicare ai crawler quali percorsi non possono essere recuperati.

Posizione: sempre https://yoursite.com/robots.txt. I sottodomini hanno il proprio. Le sottodirectory non vengono considerate.

Formato: testo semplice, una regola per riga. Definito dal Robots Exclusion Protocol, formalizzato come RFC 9309 nel settembre 2022.

Chi lo legge: i crawler ben configurati — Googlebot, Bingbot, GPTBot, ClaudeBot, PerplexityBot, ecc. Gli scraper malintenzionati lo ignorano; è una caratteristica, non un difetto. robots.txt è una richiesta, non un’applicazione forzata.

User-agent: *
Disallow: /admin
Disallow: /cart

User-agent: GPTBot
Allow: /

Sitemap: https://yoursite.com/sitemap.xml

Errore comune: bloccare GPTBot, ClaudeBot o PerplexityBot con una regola di blocco predefinita. Se lo fai, il tuo llms.txt è inutile — quei crawler non lo recupereranno. Il nostro checker lo segnala automaticamente.

2. sitemap.xml — la scheda indice

Scopo: indicare ai crawler quali URL esistono sul tuo sito, più metadati facoltativi (ultima modifica, frequenza di aggiornamento, priorità).

Posizione: convenzionalmente in /sitemap.xml, ma il riferimento canonico proviene da Google Search Console o da una direttiva Sitemap: in robots.txt. I siti grandi dividono in più sitemap sotto un indice di sitemap.

Formato: XML. Lo schema si trova su sitemaps.org (ultima revisione 2008, ancora autorevole).

Chi lo legge: i motori di ricerca che vogliono un inventario completo degli URL — Google, Bing, Yandex, ecc. Non viene consumato direttamente dai sistemi AI oggi.

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://yoursite.com/</loc>
    <lastmod>2026-05-01</lastmod>
    <priority>1.0</priority>
  </url>
  <url>
    <loc>https://yoursite.com/pricing</loc>
    <lastmod>2026-04-15</lastmod>
  </url>
</urlset>

Errore comune: credere che una sitemap costringa Google a indicizzare un URL. Non è così. Una sitemap è un suggerimento sull’esistenza e la recenza; le decisioni di ranking e indicizzazione restano di competenza del motore di ricerca.

3. llms.txt — il sommario per l’AI

Scopo: fornire a un sistema AI un sommario curato in Markdown del tuo sito, così da poter rispondere a domande su di te senza dover analizzare il tuo HTML completo, la navigazione, gli script e i banner dei cookie.

Posizione: sempre https://yoursite.com/llms.txt. I siti più grandi possono pubblicare anche llms-full.txt, una concatenazione dei testi completi degli articoli in Markdown.

Formato: Markdown con una struttura fissa: un H1 con il nome del sito, un blockquote di presentazione, sezioni ## e voci con link in forma - [nome](url): descrizione. Spec di Jeremy Howard di Answer.AI, pubblicata nel settembre 2024.

Chi lo legge: agenti AI e crawler quando hanno bisogno di ancorare una risposta al tuo sito. Già adottato da Anthropic, Stripe, Cloudflare, Vercel, Mintlify e da un numero crescente di importanti siti SaaS. L’adozione tra i primi 1.000 siti è ancora sotto l’1%, ma la curva è ripida.

# Acme Corp

> Open-source database for full-text search across structured documents.

## Docs
- [Quickstart](https://acme.example/docs/quickstart): Get a cluster running in 5 minutes.
- [API reference](https://acme.example/docs/api): Full HTTP API.

## Optional
- [Architecture](https://acme.example/blog/architecture): How the index is sharded.

Errore comune: metterlo nel posto sbagliato (/.well-known/llms.txt, o in una sottodirectory). La spec è inequivocabile: va nella root.

Come i tre file lavorano insieme

Si sovrappongono meno di quanto penseresti.

  • robots.txt stabilisce il confine dei permessi — cosa può essere recuperato.
  • sitemap.xml descrive la superficie completa — ogni URL che vuoi far conoscere a un motore di ricerca.
  • llms.txt seleziona il sottoinsieme importante — il puntatore curato “ecco cosa conta” per l’AI.

Un sito piccolo tipico ha 50–500 URL nella sua sitemap, ma solo 5–25 voci nel suo llms.txt. Questo è il punto. llms.txt è editoriale, non esaustivo.

Cosa succede se mi manca uno dei tre?

Nessun robots.txt

Tutti i crawler assumono per default “tutto permesso.” Di solito va bene; hai bisogno di un robots.txt solo se hai percorsi da nascondere (admin, staging, pagine di risultati di ricerca). Tuttavia, senza una direttiva Sitemap:, i motori di ricerca ricorrono alla scoperta per link, che è più lenta.

Nessun sitemap.xml

I motori di ricerca scansionano il tuo sito e scoprono gli URL seguendo i link. Per siti con un solido collegamento interno questo funziona bene. Per contenuti profondamente annidati o paginati (grandi cataloghi, archivi), vedrai un’indicizzazione più lenta senza una sitemap.

Nessun llms.txt

I sistemi AI analizzano il tuo HTML completo — navigazione, script, banner dei cookie, tutto quanto — e cercano di riassumere il tuo sito dal rumore. Alcuni ci riescono, ma stai lasciando la risposta al caso. I siti che pubblicano un llms.txt pulito riportano fino a 10× meno token utilizzati quando i sistemi AI li citano, il che incide direttamente sulla frequenza delle citazioni.

La checklist di configurazione

  1. Pubblica un sitemap.xml — la maggior parte dei CMS (WordPress, Webflow, Shopify, Next.js) lo genera automaticamente. Verifica che sia presente in /sitemap.xml.
  2. Pubblica un robots.txt — anche uno minimale (User-agent: * / Allow: / / Sitemap: https://yoursite.com/sitemap.xml) è meglio di niente. Assicurati di non bloccare accidentalmente i crawler AI.
  3. Genera un llms.txt incolla il tuo URL nel nostro generatore per ottenere una bozza da modificare e caricare.
  4. Validalo — passa il file attraverso il validatore per confermare che sia conforme alla spec prima di annunciarlo.

FAQ

llms.txt sostituisce robots.txt o sitemap.xml?

No. Hanno destinatari e scopi diversi. I motori di ricerca si affidano ancora alle sitemap; i crawler rispettano ancora robots.txt. llms.txt è puramente additivo — un nuovo livello per l'AI.

I sistemi AI recuperano davvero llms.txt oggi?

ChatGPT (con navigazione), Claude, Perplexity e Cursor leggono tutti llms.txt quando recuperano un sito per ancorare le risposte. A partire dal 2026 non è universale, ma i principali player lo supportano e l'elenco continua a crescere.

Se blocco i crawler AI in robots.txt, llms.txt serve ancora?

No — sono complementari. Bloccare GPTBot o ClaudeBot in robots.txt significa che quei crawler non recupereranno nemmeno llms.txt. Se vuoi che l'AI conosca il tuo sito, devi lasciarla entrare.

Devo elencare ogni pagina in llms.txt?

No. llms.txt è un sommario curato, non una sitemap. Punta a 5–25 voci che rappresentino i tuoi contenuti più importanti: docs, prezzi, pagine prodotto chiave, articoli fondamentali. Metti la coda lunga altrove (sitemap) o in llms-full.txt.

E llms-full.txt?

Facoltativo. È il Markdown completo delle tue pagine più importanti concatenato. I grandi siti di documentazione (Stripe, Anthropic) pubblicano entrambi. Per la maggior parte dei siti, solo llms.txt è sufficiente.

llms.txt influenzerà il mio posizionamento su Google?

Non direttamente. Google usa sitemap.xml per la scoperta, non llms.txt. llms.txt incide sulla visibilità nella ricerca AI — ChatGPT, Claude, Perplexity, ecc. — che è sempre più un canale separato.

Prossimi passi