심층 가이드 · 8 분

llms.txt vs robots.txt vs sitemap.xml

각 파일의 역할과 세 가지 모두 필요한 이유.

도메인 루트에는 세 개의 작은 텍스트 파일이 존재합니다. 그중 두 개는 20년 이상 사용되어 왔습니다. 세 번째는 2024년에 공개되어 2026년부터 본격적으로 주목받기 시작했습니다. 이 세 파일은 크롤러와 AI 시스템에 서로 완전히 다른 정보를 전달합니다. 그럼에도 불구하고 개발팀들은 여전히 매주 이 파일들을 혼동합니다. 이 글은 그 차이를 명확하게 정리한 안내서입니다.

30초 요약

robots.txt는 크롤러에게 크롤하면 안 되는 경로를 알려줍니다. sitemap.xml은 크롤러에게 존재하는 URL 목록을 알려줍니다. llms.txt는 AI 시스템에게 사이트가 실제로 무엇에 관한 것인지를, AI가 읽기에 최적화된 형식으로 알려줍니다.

이 세 파일은 중복되지 않습니다. 역할도 다르고 대상 독자도 다릅니다. 현대적인 사이트라면 세 가지 모두 게시하는 것이 유리합니다.

robots.txtsitemap.xmlllms.txt
역할크롤 권한 설정전체 URL 목록 제공AI 요약 콘텐츠 큐레이션
대상모든 크롤러검색 엔진AI 시스템
형식일반 텍스트XMLMarkdown
최초 공개 연도1994년 (사실상 표준), 2022년 (RFC)2005년2024년
어조명령형 — “허용하지 않음”목록형 — “URL 목록입니다”편집형 — “중요한 내용은 이것입니다”
일반적인 크기< 1 KB10 KB – 50 MB1–20 KB
필수 여부아니오 (권장)아니오 (권장)아니오 (점점 기본값화)

1. robots.txt — 출입 통제자

목적: 크롤러에게 가져오면 안 되는 경로를 알려줍니다.

위치: 항상 https://yoursite.com/robots.txt에 위치합니다. 서브도메인은 별도의 파일을 가집니다. 서브디렉터리는 인식되지 않습니다.

형식: 일반 텍스트이며 한 줄에 하나의 규칙을 작성합니다. Robots Exclusion Protocol에 의해 정의되며, 2022년 9월 RFC 9309로 공식화되었습니다.

읽는 대상: 준법적인 크롤러 — Googlebot, Bingbot, GPTBot, ClaudeBot, PerplexityBot 등. 악의적인 스크레이퍼는 이를 무시합니다. 이는 버그가 아니라 의도된 동작입니다. robots.txt요청이지, 강제 수단이 아닙니다.

User-agent: *
Disallow: /admin
Disallow: /cart

User-agent: GPTBot
Allow: /

Sitemap: https://yoursite.com/sitemap.xml

흔한 실수: 기본 차단 규칙으로 GPTBot, ClaudeBot, 또는 PerplexityBot을 차단하는 것입니다. 이렇게 하면 llms.txt가 무의미해집니다 — 해당 크롤러들이 파일을 가져오지 않기 때문입니다. 당사 검사 도구 가 이를 자동으로 감지합니다.

2. sitemap.xml — 색인 카드

목적: 크롤러에게 사이트에 어떤 URL이 존재하는지 알려주며, 선택적으로 메타데이터(최종 수정일, 변경 빈도, 우선순위)도 포함합니다.

위치: 관례적으로 /sitemap.xml에 위치하지만, 공식 참조는 Google Search Console 또는 robots.txtSitemap: 지시어를 통해 이루어집니다. 대형 사이트는 사이트맵 인덱스 아래에 여러 사이트맵으로 분할합니다.

형식: XML입니다. 스키마는 sitemaps.org에 있습니다 (2008년 마지막 개정, 여전히 권위 있는 문서).

읽는 대상: 전체 URL 목록이 필요한 검색 엔진 — Google, Bing, Yandex 등. 현재 AI 어시스턴트는 직접 소비하지 않습니다.

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://yoursite.com/</loc>
    <lastmod>2026-05-01</lastmod>
    <priority>1.0</priority>
  </url>
  <url>
    <loc>https://yoursite.com/pricing</loc>
    <lastmod>2026-04-15</lastmod>
  </url>
</urlset>

흔한 실수: 사이트맵이 Google에게 URL 색인을 강제한다고 믿는 것입니다. 그렇지 않습니다. 사이트맵은 존재 여부와 최신성에 대한 힌트일 뿐이며, 순위 및 색인 결정은 검색 엔진의 재량입니다.

3. llms.txt — AI를 위한 목차

목적: AI 시스템이 전체 HTML, 내비게이션, 스크립트, 쿠키 배너를 파싱하지 않고도 사이트에 대한 질문에 답할 수 있도록, 큐레이션된 Markdown 요약을 제공합니다.

위치: 항상 https://yoursite.com/llms.txt에 위치합니다. 대형 사이트는 전체 아티클 본문을 Markdown으로 연결한 llms-full.txt도 함께 게시하는 경우가 있습니다.

형식: 고정된 구조의 Markdown입니다. H1 사이트명, 블록쿼트 요약, ## 섹션, 그리고 - [이름](url): 설명 형태의 링크 목록으로 구성됩니다. Answer.AI의 Jeremy Howard가 2024년 9월에 명세를 공개했습니다.

읽는 대상: 사이트를 기반으로 답변을 생성해야 하는 AI 에이전트와 크롤러. 이미 Anthropic, Stripe, Cloudflare, Vercel, Mintlify를 비롯한 다수의 주요 SaaS 사이트가 채택했습니다. 상위 1,000개 사이트 중 채택률은 아직 1% 미만이지만, 증가 속도는 가파릅니다.

# Acme Corp

> Open-source database for full-text search across structured documents.

## Docs
- [Quickstart](https://acme.example/docs/quickstart): Get a cluster running in 5 minutes.
- [API reference](https://acme.example/docs/api): Full HTTP API.

## Optional
- [Architecture](https://acme.example/blog/architecture): How the index is sharded.

흔한 실수: 잘못된 위치에 파일을 배치하는 것입니다 (/.well-known/llms.txt 또는 서브디렉터리). 명세는 명확합니다. 파일은 반드시 루트에 위치해야 합니다.

세 파일이 함께 작동하는 방식

세 파일은 생각보다 겹치는 부분이 적습니다.

  • robots.txt접근 권한 경계를 설정합니다 — 무엇을 가져올 수 있는지를 정의합니다.
  • sitemap.xml전체 표면적을 기술합니다 — 검색 엔진에 알리고 싶은 모든 URL을 나열합니다.
  • llms.txt중요한 일부를 선별합니다 — AI를 위해 “핵심이 무엇인지”를 가리키는 큐레이션된 포인터입니다.

일반적인 소규모 사이트는 사이트맵에 50–500개의 URL을 보유하지만, llms.txt에는 5–25개의 항목만 포함합니다. 이것이 핵심입니다. llms.txt는 망라적 목록이 아니라 편집된 선별 목록입니다.

파일이 없으면 어떻게 되나요?

robots.txt가 없는 경우

모든 크롤러는 기본적으로 “모든 접근 허용”으로 동작합니다. 대부분의 경우 문제없습니다. robots.txt는 관리자 페이지, 스테이징, 검색 결과 페이지처럼 숨겨야 할 경로가 있을 때만 필요합니다. 단, Sitemap: 지시어가 없으면 검색 엔진이 링크를 따라 URL을 발견하는 방식으로 돌아가므로 속도가 느려집니다.

sitemap.xml이 없는 경우

검색 엔진이 링크를 따라 URL을 크롤하고 발견합니다. 내부 링크가 잘 구성된 사이트라면 이 방식도 잘 작동합니다. 하지만 깊이 중첩되거나 페이지네이션이 많은 콘텐츠(대형 카탈로그, 아카이브)의 경우 사이트맵 없이는 색인이 느려집니다.

llms.txt가 없는 경우

AI 어시스턴트는 전체 HTML — 내비게이션, 스크립트, 쿠키 배너 등 모든 것 — 을 파싱해 사이트를 요약하려 합니다. 일부는 잘 해내지만, 결과를 운에 맡기는 셈입니다. 깔끔한 llms.txt를 게시한 사이트는 AI 시스템이 인용할 때 토큰 사용량이 최대 10배 줄었다고 보고하며, 이는 인용 빈도에 직접적인 영향을 미칩니다.

설정 체크리스트

  1. sitemap.xml 게시 — 대부분의 CMS(WordPress, Webflow, Shopify, Next.js)가 자동으로 생성합니다. /sitemap.xml에서 존재 여부를 확인하세요.
  2. robots.txt 게시 — 최소한의 내용이라도(User-agent: * / Allow: / / Sitemap: https://yoursite.com/sitemap.xml) 없는 것보다 낫습니다. AI 크롤러를 실수로 차단하지 않았는지 확인하세요.
  3. llms.txt 생성 URL을 생성기에 붙여넣으면 편집하고 업로드할 수 있는 초안을 받을 수 있습니다.
  4. 유효성 검사 — 공개 전에 유효성 검사기 를 통해 명세 준수 여부를 확인하세요.

자주 묻는 질문

llms.txt가 robots.txt나 sitemap.xml을 대체하나요?

아닙니다. 세 파일은 서로 다른 대상과 목적을 가집니다. 검색 엔진은 여전히 사이트맵에 의존하고, 크롤러는 여전히 robots.txt를 준수합니다. llms.txt는 순수하게 추가적인 레이어입니다 — AI를 위한 새로운 계층입니다.

AI 시스템이 실제로 지금 llms.txt를 가져오나요?

ChatGPT(브라우징 포함), Claude, Perplexity, Cursor 모두 사이트를 참조할 때 llms.txt를 읽는 것으로 알려져 있습니다. 2026년 현재 보편적이지는 않지만, 주요 플레이어들이 지원하고 있으며 목록은 계속 늘어나고 있습니다.

robots.txt에서 AI 크롤러를 차단하면 llms.txt가 여전히 도움이 되나요?

아닙니다 — 두 파일은 상호 보완적입니다. robots.txt에서 GPTBot이나 ClaudeBot을 차단하면 해당 크롤러들이 llms.txt도 가져오지 않습니다. AI가 사이트를 알게 하려면 접근을 허용해야 합니다.

llms.txt에 모든 페이지를 나열해야 하나요?

아닙니다. llms.txt는 사이트맵이 아니라 큐레이션된 목차입니다. 가장 중요한 콘텐츠를 대표하는 5–25개 항목을 목표로 하세요: 문서, 가격 페이지, 핵심 제품 페이지, 주요 아티클. 나머지는 사이트맵이나 llms-full.txt에 포함하세요.

llms-full.txt는 무엇인가요?

선택 사항입니다. 가장 중요한 페이지의 전체 Markdown을 연결한 파일입니다. Stripe, Anthropic 같은 대형 문서 사이트는 두 가지 모두 게시합니다. 대부분의 사이트에는 llms.txt만으로 충분합니다.

llms.txt가 Google 순위에 영향을 미치나요?

직접적인 영향은 없습니다. Google은 llms.txt가 아닌 sitemap.xml을 URL 발견에 사용합니다. llms.txt는 AI 검색 가시성 — ChatGPT, Claude, Perplexity 등 — 에 영향을 미치며, 이는 점점 별도의 채널로 자리잡고 있습니다.

다음 단계