본문으로 건너뛰기
목록으로 돌아가기
AI 인프라/모델 최적화

레이트 리미팅 (Rate Limiting)

짧은 시간에 과도한 요청이 몰릴 때 API 호출량을 제한하는 제어 기법

#레이트 리미팅#rate limiting#rate limit#요청 제한#API 제한

레이트 리미팅이란?

레이트 리미팅(Rate Limiting)은 일정 시간 동안 허용할 요청 수를 제한해 시스템 과부하를 막는 운영 기법입니다.

예를 들어 1분에 60회까지만 호출을 허용하면, 그 이상 요청은 지연하거나 차단해 서비스 안정성을 지킬 수 있습니다.

왜 중요한가요?

AI API나 검색 API를 사용하는 서비스에서는 트래픽 급증 시 호출 실패, 응답 지연, 비용 급등이 동시에 발생할 수 있습니다.

레이트 리미팅은 이런 상황에서 서비스 품질과 비용을 함께 관리하는 기본 안전장치로 사용됩니다.

실무에서 자주 쓰는 방식

  • 고정 윈도우(Fixed Window): 시간 구간별 최대 요청 수 제한
  • 슬라이딩 윈도우(Sliding Window): 더 정교하게 시간 흐름을 반영해 제한
  • 토큰 버킷(Token Bucket): 순간 트래픽 스파이크를 일부 허용하며 평균 속도 제어

관련 용어