컴퓨트 최적 스케일링이란?

컴퓨트 최적 스케일링은 고정된 연산 예산에서 "가장 큰 모델"이 아니라 "가장 효율적인 조합"을 찾는 학습 원칙입니다.
핵심은 **파라미터 수(N)**와 **학습 토큰 수(D)**를 균형 있게 맞추는 것입니다.

이 관점은 DeepMind의 Chinchilla 연구(2022)로 널리 알려졌습니다.

어떻게 작동하나요?

핵심은 한 축만 키우지 않는 것입니다.

Chinchilla 분석에서는 자주 인용되는 경험적 비율로 N:D ≈ 1:20이 제시됩니다.

컴퓨트 최적 스케일링은 "최대 모델 경쟁"을 "예산 내 최적화 문제"로 바꿨습니다.

실무적으로는 다음에 직접 영향을 줍니다.

즉, 스케일링을 크기 경쟁이 아니라 최적화 문제로 다루게 해주는 기준입니다.