로봇 배제 표준

로봇 배제 표준(Robots exclusion standard, 사용되는 파일명인 robots.txt로 더 잘 알려져 있다.)는 웹 크롤러와 그와 비슷한 자동화된 클라이언트(로봇)들의 접근을 제어하기 위한 규약이다. 권고 사항이기 때문에 의무적으로 지킬 필요는 없으나, 사이트나 서비스 특성상 막아야할 필요성이 있는 경우[1] 반드시 적용해야 한다.

사용 예시

robots.txt 파일은 반드시 웹사이트의 최상위 경로에 있어야 한다. (예: example.com/robots.txt) 그렇지 않으면 동작하지 않는다.

또한 디렉토리들에 대한 접근을 차단하거나 허용하려면, 경로명 끝에 / 를 붙여주어야 한다.

  • 특정 디렉토리에 대한 접근 차단:
User-agent: (제어할 로봇의 UA 문자열)
Disallow: /path/to/disallow/
  • 특정 디렉토리에 대한 접근 허용:
User-agent: (제어할 로봇의 UA 문자열)
Allow: /path/to/allow/
  • 모든 문서에 대한 접근 차단:
User-agent: *
Disallow: /
  • 모든 문서에 대한 접근 허용:
User-agent: *
Allow: /

유명한 로봇들의 UA(User-agent) 일람

서비스명 UA 문자열
구글 (일반 검색) Googlebot
구글 (이미지 검색) Googlebot-image
네이버 Yeti[2]
MSN MSNBot
다음 Daumoa

유명 웹사이트들의 robots.txt 일람

이 사이트의 robots.txt

외부 링크

  1. 불필요한 트래픽을 발생시키지 않아야 하는 소규모 웹사이트나 회원제 서비스 등.
  2. 2005년 이전에는 NaverBot 였으나 바뀌었다.
  3. 해당 robots.txt의 설정 내용은 위키백과를 비롯한 위키미디어 재단이 운영하는 모든 위키 사이트에 공통적으로 적용된다.