레이트 리미팅 (Rate Limiting)
짧은 시간에 과도한 요청이 몰릴 때 API 호출량을 제한하는 제어 기법
#레이트 리미팅#rate limiting#rate limit#요청 제한#API 제한
레이트 리미팅이란?
레이트 리미팅(Rate Limiting)은 일정 시간 동안 허용할 요청 수를 제한해 시스템 과부하를 막는 운영 기법입니다.
예를 들어 1분에 60회까지만 호출을 허용하면, 그 이상 요청은 지연하거나 차단해 서비스 안정성을 지킬 수 있습니다.
왜 중요한가요?
AI API나 검색 API를 사용하는 서비스에서는 트래픽 급증 시 호출 실패, 응답 지연, 비용 급등이 동시에 발생할 수 있습니다.
레이트 리미팅은 이런 상황에서 서비스 품질과 비용을 함께 관리하는 기본 안전장치로 사용됩니다.
실무에서 자주 쓰는 방식
- 고정 윈도우(Fixed Window): 시간 구간별 최대 요청 수 제한
- 슬라이딩 윈도우(Sliding Window): 더 정교하게 시간 흐름을 반영해 제한
- 토큰 버킷(Token Bucket): 순간 트래픽 스파이크를 일부 허용하며 평균 속도 제어
관련 용어
AI 인프라/모델 최적화
버텍스 AI (Vertex AI)
Google Cloud에서 제공하는 기업용 머신러닝·생성형 AI 통합 플랫폼
AI 인프라/모델 최적화
벡터 데이터베이스 (Vector DB)
AI 임베딩 벡터를 저장하고 유사도 기반으로 검색하는 전문 데이터베이스
AI 인프라/모델 최적화
에이전트 오케스트레이션 (Agent Orchestration)
여러 AI 에이전트와 도구 실행 흐름을 정책에 맞게 조정·통제하는 운영 방식
AI 인프라/모델 최적화
엣지 AI (Edge AI)
클라우드 대신 기기에서 직접 AI를 실행하는 방식
AI 인프라/모델 최적화
주권 AI (Sovereign AI)
데이터·모델·인프라 통제권을 조직이나 국가가 직접 보유하는 AI 운영 전략
AI 인프라/모델 최적화
코봇 (Collaborative Robot)
사람과 같은 작업 공간에서 협업하도록 설계된 안전 중심 산업용 로봇