robots.txt
웹사이트 루트에 위치하는 파일로, 검색 엔진과 AI 크롤러에게 수집 허용·차단 범위를 지정한다
#robots.txt#로봇 배제 표준#AI 크롤러 설정#GPTBot#ClaudeBot#PerplexityBot#크롤러 허용
robots.txt란?
robots.txt는 웹사이트 루트 디렉토리에 위치하는 텍스트 파일로, 검색 엔진 봇과 AI 크롤러에게 어느 페이지를 수집할 수 있고 어느 페이지는 접근하지 말아야 하는지를 지정한다.
AI 크롤러와의 관계
ChatGPT, Claude, Perplexity 등 AI 서비스는 각자의 크롤러를 운용한다. robots.txt에서 이 크롤러들을 차단하면 해당 AI의 인덱싱과 학습 데이터에서 제외되어 브랜드 언급 가능성이 직접적으로 낮아진다.
| AI 크롤러 | User-agent 식별자 |
|---|---|
| ChatGPT | GPTBot |
| Claude (Anthropic) | ClaudeBot |
| Perplexity | PerplexityBot |
| Google AI | Google-Extended |
AIVS에서의 역할
trensee AIVS는 AI Infra 필라에서 GPTBot, ClaudeBot, PerplexityBot 각각의 허용 여부를 독립적으로 평가한다(각 3점, 최대 9점). 세 크롤러를 모두 허용해야 만점이다.
권장 설정 예시
User-agent: GPTBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Allow: /
관련 용어
관련 용어
AI 인프라/모델 최적화
경사하강법 (Gradient Descent)
손실 함수를 최소화하기 위해 기울기 반대 방향으로 파라미터를 반복 업데이트하는 최적화 방법
AI 인프라/모델 최적화
딥러닝 (Deep Learning)
다층 신경망을 이용해 데이터의 복잡한 표현을 자동으로 학습하는 머신러닝 접근
AI 인프라/모델 최적화
레이트 리미팅 (Rate Limiting)
짧은 시간에 과도한 요청이 몰릴 때 API 호출량을 제한하는 제어 기법
AI 인프라/모델 최적화
로봇 파운데이션 모델 (Robot Foundation Model)
대규모 로봇 데이터와 멀티모달 입력으로 사전 학습되어 다양한 물리 작업에 전이 가능한 범용 로봇 AI 모델
AI 인프라/모델 최적화
로컬 AI (Local AI)
모델을 외부 API가 아닌 자체 PC·서버에서 직접 실행하는 방식
AI 인프라/모델 최적화
모델 증류 (Model Distillation)
대형 모델의 출력 신호를 활용해 더 작은 모델을 학습시키는 경량화 기법