로봇 배제 표준

로봇 배제 표준(Robots exclusion standard, 사용되는 파일명인 robots.txt로 더 잘 알려져 있다.)는 웹 크롤러와 그와 비슷한 자동화된 클라이언트(로봇)들의 접근을 제어하기 위한 규약이다. 권고 사항이기 때문에 의무적으로 지킬 필요는 없으나, 사이트나 서비스 특성상 막아야할 필요성이 있는 경우^[1] 반드시 적용해야 한다.

사용 예시

이 robots.txt 파일은 반드시 웹사이트의 최상위 경로에 있어야 한다. (예: example.com/robots.txt) 그렇지 않으면 동작하지 않는다.

또한 디렉토리들에 대한 접근을 차단하거나 허용하려면, 경로명 끝에 / 를 붙여주어야 한다.

특정 디렉토리에 대한 접근 차단:

User-agent: (제어할 로봇의 UA 문자열)
Disallow: /path/to/disallow/

특정 디렉토리에 대한 접근 허용:

User-agent: (제어할 로봇의 UA 문자열)
Allow: /path/to/allow/

모든 문서에 대한 접근 차단:

User-agent: *
Disallow: /

모든 문서에 대한 접근 허용:

User-agent: *
Allow: /

유명한 로봇들의 UA(`User-agent`) 일람

서비스명	UA 문자열
구글 (일반 검색)	`Googlebot`
구글 (이미지 검색)	`Googlebot-image`
네이버	`Yeti`^[2]
MSN	`MSNBot`
다음	`Daumoa`

유명 웹사이트들의 robots.txt 일람

이 사이트의 robots.txt

이 링크를 참조할 것

외부 링크

주

↑ 불필요한 트래픽을 발생시키지 않아야 하는 소규모 웹사이트나 회원제 서비스 등.
↑ 2005년 이전에는 NaverBot 였으나 바뀌었다.
↑ 해당 robots.txt의 설정 내용은 위키백과를 비롯한 위키미디어 재단이 운영하는 모든 위키 사이트에 공통적으로 적용된다.

[1] 불필요한 트래픽을 발생시키지 않아야 하는 소규모 웹사이트나 회원제 서비스 등.

[2] 2005년 이전에는 NaverBot 였으나 바뀌었다.

[wikimedia_robots-3] 해당 robots.txt의 설정 내용은 위키백과를 비롯한 위키미디어 재단이 운영하는 모든 위키 사이트에 공통적으로 적용된다.

[1]

[2]

[3]