GPU (Graphics Processing Unit)
AI 학습·추론의 기반 연산 장치로, 대규모 병렬 연산에 특화된 프로세서
#GPU#H100#A100#NVIDIA#AI 가속기
GPU란?
GPU(Graphics Processing Unit)는 본래 그래픽 처리를 위해 설계된 프로세서이지만, 지금은 AI 모델 학습과 추론의 핵심 연산 장치로 자리잡았습니다. 수천 개의 작은 연산 코어가 병렬로 동작해 행렬 곱셈 같은 대규모 선형대수 연산을 CPU 대비 수십~수백 배 빠르게 처리합니다.
NVIDIA 의 H100·A100, AMD 의 MI300, Google 의 TPU 가 대표적 AI 가속기이며, 최신 LLM 한 번 학습에 수천수만 개의 GPU 가 수주수개월간 동원됩니다.
어떻게 AI 를 가속하나요?
AI 연산의 95% 이상은 행렬 곱셈(GEMM) 입니다. GPU 는 이 연산에 최적화된 Tensor Core 전용 유닛을 탑재해, 같은 전력·면적에서 압도적 처리량을 냅니다.
- 학습(training): 수백 GB~수 TB 모델 파라미터를 GPU 메모리(HBM)에 올리고 역전파 연산 병렬 수행
- 추론(inference): 사용자 요청 배치를 묶어 GPU 한 장에서 동시에 처리 (batching·throughput 최적화)
- 분산 학습: NVLink·InfiniBand 같은 초고속 인터커넥트로 수백~수천 GPU를 하나의 거대 클러스터처럼 운용
H100 1장 기준 FP16 약 1 PFLOPS, HBM3 80GB·대역폭 3TB/s 수준이며, 최신 B200·MI350 은 이를 2~3배 확장합니다.
왜 중요한가요?
GPU 공급은 AI 산업의 병목이자 전략 자산입니다. 대형 LLM 학습은 수천 GPU·수천만 달러 예산을 전제로 하며, GPU 수급·전력·냉각 인프라가 확보되지 않으면 프론티어 모델 개발 자체가 불가능합니다. 2023~2025 년 NVIDIA 시가총액이 전 세계 기업 1위권에 오른 배경에는 이 수급 독점이 있습니다. 추론 단계에서도 응답 지연·비용·에너지 효율이 GPU 세대에 좌우되므로, 제품 가격·SLA·수익성의 핵심 변수입니다.
관련 용어
AI 인프라/모델 최적화
경사하강법 (Gradient Descent)
손실 함수를 최소화하기 위해 기울기 반대 방향으로 파라미터를 반복 업데이트하는 최적화 방법
AI 인프라/모델 최적화
딥러닝 (Deep Learning)
다층 신경망을 이용해 데이터의 복잡한 표현을 자동으로 학습하는 머신러닝 접근
AI 인프라/모델 최적화
레이트 리미팅 (Rate Limiting)
짧은 시간에 과도한 요청이 몰릴 때 API 호출량을 제한하는 제어 기법
AI 인프라/모델 최적화
로봇 파운데이션 모델 (Robot Foundation Model)
대규모 로봇 데이터와 멀티모달 입력으로 사전 학습되어 다양한 물리 작업에 전이 가능한 범용 로봇 AI 모델
AI 인프라/모델 최적화
로컬 AI (Local AI)
모델을 외부 API가 아닌 자체 PC·서버에서 직접 실행하는 방식
AI 인프라/모델 최적화
모델 증류 (Model Distillation)
대형 모델의 출력 신호를 활용해 더 작은 모델을 학습시키는 경량화 기법