로봇 배제 표준

로봇 배제 표준(Robots exclusion standard, 사용되는 파일명인 robots.txt로 더 잘 알려져 있다.)는 웹 크롤러와 그와 비슷한 자동화된 클라이언트(로봇)들의 접근을 제어하기 위한 규약이다. 권고 사항이기 때문에 의무적으로 지킬 필요는 없으나, 사이트나 서비스 특성상 막아야할 필요성이 있는 경우[1] 반드시 적용해야 한다.

사용 예시

robots.txt 파일은 반드시 웹사이트의 최상위 경로에 있어야 한다. (예: example.com/robots.txt) 그렇지 않으면 동작하지 않는다.

또한 디렉토리들에 대한 접근을 차단하거나 허용하려면, 경로명 끝에 / 를 붙여주어야 한다.

  • 특정 디렉토리에 대한 접근 차단:
User-agent: (제어할 로봇의 UA 문자열)
Disallow: /path/to/disallow/
  • 특정 디렉토리에 대한 접근 허용:
User-agent: (제어할 로봇의 UA 문자열)
Allow: /path/to/allow/
  • 모든 문서에 대한 접근 차단:
User-agent: *
Disallow: /
  • 모든 문서에 대한 접근 허용:
User-agent: *
Allow: /

유명한 로봇들의 UA(User-agent) 일람

서비스명 UA 문자열
구글 (일반 검색) Googlebot
구글 (이미지 검색) Googlebot-image
네이버 Yeti[2]
MSN MSNBot
다음 Daumoa

AI 학습 목적의 크롤링 관련

2020년대 중반 들어 AI 산업의 규모가 커지며, OpenAI의 ChatGPT 및 구글의 Gemini 등의 대화형 AI 모델의 학습을 위한 목적으로 웹사이트나 서비스를 무단 크롤링하는 로봇들도 다수 존재하며 대부분의 경우 중소규모 웹사이트 및 서비스들에도 과도한 부담을 줄 정도로 불필요한 트래픽을 발생시키고 있다.[3] 이를 일정 수준에서 차단해 주는 개방형 솔루션도 존재할 정도이다.[4]

유명 웹사이트들의 robots.txt 일람

이 사이트의 robots.txt

외부 링크

  1. 불필요한 트래픽을 발생시키지 않아야 하는 소규모 웹사이트나 회원제 서비스 등.
  2. 2005년 이전에는 NaverBot 였으나 바뀌었다.
  3. 관련 기사
  4. 그러나, 그 목적을 막론하고 robots.txt 규약을 완전히 무시하는 로봇들도 상당수 존재하기에, 해당 솔루션도 모든 로봇들을 완벽하게 차단해주지는 못한다는 것을 유념할 필요가 있으며, 효율적인 차단을 위해서는 전통적인 TCP/IP 방화벽 솔루션(UFW/iptables 등의 OS 내장 방화벽이나 하드웨어 방화벽, 또는 Anubis 같은 WAF 소프트웨어)를 사용하는 것이 더 바람직하다.
  5. 해당 robots.txt의 설정 내용은 위키백과를 비롯한 위키미디어 재단이 운영하는 모든 위키 사이트에 공통적으로 적용된다.