목록으로 돌아가기

AI 인프라/모델 최적화

레이트 리미팅 (Rate Limiting)

짧은 시간에 과도한 요청이 몰릴 때 API 호출량을 제한하는 제어 기법

#레이트 리미팅#rate limiting#rate limit#요청 제한#API 제한

레이트 리미팅이란?

레이트 리미팅(Rate Limiting)은 일정 시간 동안 허용할 요청 수를 제한해 시스템 과부하를 막는 운영 기법입니다.

예를 들어 1분에 60회까지만 호출을 허용하면, 그 이상 요청은 지연하거나 차단해 서비스 안정성을 지킬 수 있습니다.

왜 중요한가요?

AI API나 검색 API를 사용하는 서비스에서는 트래픽 급증 시 호출 실패, 응답 지연, 비용 급등이 동시에 발생할 수 있습니다.

레이트 리미팅은 이런 상황에서 서비스 품질과 비용을 함께 관리하는 기본 안전장치로 사용됩니다.

실무에서 자주 쓰는 방식

고정 윈도우(Fixed Window): 시간 구간별 최대 요청 수 제한
슬라이딩 윈도우(Sliding Window): 더 정교하게 시간 흐름을 반영해 제한
토큰 버킷(Token Bucket): 순간 트래픽 스파이크를 일부 허용하며 평균 속도 제어

관련 용어

AI 인프라/모델 최적화

경사하강법 (Gradient Descent)

손실 함수를 최소화하기 위해 기울기 반대 방향으로 파라미터를 반복 업데이트하는 최적화 방법

AI 인프라/모델 최적화

딥러닝 (Deep Learning)

다층 신경망을 이용해 데이터의 복잡한 표현을 자동으로 학습하는 머신러닝 접근

AI 인프라/모델 최적화

로봇 파운데이션 모델 (Robot Foundation Model)

대규모 로봇 데이터와 멀티모달 입력으로 사전 학습되어 다양한 물리 작업에 전이 가능한 범용 로봇 AI 모델

AI 인프라/모델 최적화

로컬 AI (Local AI)

모델을 외부 API가 아닌 자체 PC·서버에서 직접 실행하는 방식

AI 인프라/모델 최적화

모델 증류 (Model Distillation)

대형 모델의 출력 신호를 활용해 더 작은 모델을 학습시키는 경량화 기법

AI 인프라/모델 최적화

모델 컨텍스트 프로토콜 (MCP)

AI 모델이 외부 도구와 데이터 소스를 표준 방식으로 연결해 활용하도록 돕는 인터페이스 규격

목록으로 돌아가기