로봇 배제 표준(Robots exclusion standard, 사용되는 파일명인 robots.txt로 더 잘 알려져 있다.)는 웹 크롤러와 그와 비슷한 자동화된 클라이언트(로봇)들의 접근을 제어하기 위한 규약이다. 권고 사항이기 때문에 의무적으로 지킬 필요는 없으나, 사이트나 서비스 특성상 막아야할 필요성이 있는 경우[1] 반드시 적용해야 한다.
사용 예시
이 robots.txt
파일은 반드시 웹사이트의 최상위 경로에 있어야 한다. (예: example.com/robots.txt
) 그렇지 않으면 동작하지 않는다.
또한 디렉토리들에 대한 접근을 차단하거나 허용하려면, 경로명 끝에 /
를 붙여주어야 한다.
- 특정 디렉토리에 대한 접근 차단:
User-agent: (제어할 로봇의 UA 문자열) Disallow: /path/to/disallow/
- 특정 디렉토리에 대한 접근 허용:
User-agent: (제어할 로봇의 UA 문자열) Allow: /path/to/allow/
- 모든 문서에 대한 접근 차단:
User-agent: * Disallow: /
- 모든 문서에 대한 접근 허용:
User-agent: * Allow: /
유명한 로봇들의 UA(User-agent
) 일람
서비스명 | UA 문자열 |
---|---|
구글 (일반 검색) | Googlebot
|
구글 (이미지 검색) | Googlebot-image
|
네이버 | Yeti [2]
|
MSN | MSNBot
|
다음 | Daumoa
|
AI 학습 목적의 크롤링 관련
2020년대 중반 들어 AI 산업의 규모가 커지며, OpenAI의 ChatGPT 및 구글의 Gemini 등의 대화형 AI 모델의 학습을 위한 목적으로 웹사이트나 서비스를 무단 크롤링하는 로봇들도 다수 존재하며 대부분의 경우 중소규모 웹사이트 및 서비스들에도 과도한 부담을 줄 정도로 불필요한 트래픽을 발생시키고 있다.[3] 이를 일정 수준에서 차단해 주는 개방형 솔루션도 존재할 정도이다.[4]
유명 웹사이트들의 robots.txt 일람
이 사이트의 robots.txt
외부 링크
주
- ↑ 불필요한 트래픽을 발생시키지 않아야 하는 소규모 웹사이트나 회원제 서비스 등.
- ↑ 2005년 이전에는
NaverBot
였으나 바뀌었다. - ↑ 관련 기사
- ↑ 그러나, 그 목적을 막론하고 robots.txt 규약을 완전히 무시하는 로봇들도 상당수 존재하기에, 해당 솔루션도 모든 로봇들을 완벽하게 차단해주지는 못한다는 것을 유념할 필요가 있으며, 효율적인 차단을 위해서는 전통적인 TCP/IP 방화벽 솔루션(UFW/iptables 등의 OS 내장 방화벽이나 하드웨어 방화벽, 또는 Anubis 같은 WAF 소프트웨어)를 사용하는 것이 더 바람직하다.
- ↑ 해당 robots.txt의 설정 내용은 위키백과를 비롯한 위키미디어 재단이 운영하는 모든 위키 사이트에 공통적으로 적용된다.