본문으로 건너뛰기
ml-foundations

컴퓨트 최적 스케일링 (Compute-Optimal Scaling)

고정된 연산 예산에서 모델 크기와 학습 토큰을 균형 있게 맞춰 품질 효율을 최대화하는 학습 전략

#컴퓨트 최적 스케일링#Chinchilla#스케일링 법칙#학습 연산량#LLM

컴퓨트 최적 스케일링이란?

컴퓨트 최적 스케일링은 고정된 연산 예산에서 "가장 큰 모델"이 아니라 "가장 효율적인 조합"을 찾는 학습 원칙입니다.
핵심은 **파라미터 수(N)**와 **학습 토큰 수(D)**를 균형 있게 맞추는 것입니다.

이 관점은 DeepMind의 Chinchilla 연구(2022)로 널리 알려졌습니다.

어떻게 작동하나요?

핵심은 한 축만 키우지 않는 것입니다.

  • 모델 크기만 과도하게 키우고 토큰을 충분히 늘리지 않으면 과소학습(undertrained) 상태가 되기 쉽습니다.
  • 토큰만 과도하게 늘리고 모델이 작으면 표현 용량 한계에 부딪힐 수 있습니다.
  • 같은 연산 예산에서 두 축을 균형 있게 키우는 편이 품질 효율이 높아집니다.

Chinchilla 분석에서는 자주 인용되는 경험적 비율로 N:D ≈ 1:20이 제시됩니다.

왜 중요한가요?

컴퓨트 최적 스케일링은 "최대 모델 경쟁"을 "예산 내 최적화 문제"로 바꿨습니다.

실무적으로는 다음에 직접 영향을 줍니다.

  • 학습 ROI(품질 대비 비용)
  • GPU 자원 계획과 학습 스케줄링
  • 모델 확대와 데이터 개선 중 어디에 투자할지에 대한 의사결정

즉, 스케일링을 크기 경쟁이 아니라 최적화 문제로 다루게 해주는 기준입니다.

관련 용어