AI 인프라/모델 최적화2026-03-11·작성: Trensee 편집팀·업데이트: 2026-03-11

[AI로 가는 길 06] GPU 혁명: NVIDIA의 CUDA가 어떻게 AI의 속도를 1,000배 높였나

게임용 그래픽 칩이 어떻게 현대 AI의 핵심 인프라가 되었는지, NVIDIA CUDA의 탄생부터 GPU 클러스터까지 그 역사적 전환을 살펴봅니다.

이 블로그 콘텐츠는 AI 보조 도구를 활용해 초안/구조화를 수행할 수 있으며, RanketAI 편집팀 검수 후 발행됩니다.

시리즈 전체 보기 (6 / 10)▾

← 이전 편[AI로 가는 길 05] 인프라의 혁명: 분산 컴퓨팅이 AI의 '뇌세포'를 수조 개로 늘린 방법 다음 편 →[AI로 가는 길 07] 딥러닝의 구조: 역전파와 경사하강법, 신경망은 어떻게 스스로 학습하는가

핵심 요약: 현대 AI가 존재할 수 있는 이유 중 하나는 GPU입니다. 게임 그래픽용으로 설계된 칩이 어떻게 딥러닝 연산의 핵심 장치가 되었을까요? NVIDIA CUDA의 등장과 AlexNet의 순간, 그리고 오늘날 LLM 학습에 이르기까지 그 역사적 전환을 이 편에서 살펴봅니다.

이번 편의 질문

지난 05편에서 우리는 분산 컴퓨팅과 클라우드 혁명이 어떻게 수십 페타바이트의 데이터를 처리할 수 있는 인프라 기반을 만들었는지 살펴보았습니다. 수만 대의 컴퓨터가 하나처럼 움직이는 환경이 갖춰졌습니다. 하지만 또 다른 벽이 남아 있었습니다.

이번 편에서 우리가 던지는 핵심 질문은 세 가지입니다.

왜 CPU는 AI 훈련의 벽에 부딪혔는가? 성능 좋은 CPU가 아무리 많아도 충분하지 않은 이유가 있었습니다.
연구자들은 어떻게 그래픽 칩에서 가능성을 발견했는가? 게임용 하드웨어가 어떻게 AI의 엔진이 되었을까요?
GPU 혁명은 오늘날 AI 시장 구조를 어떻게 만들었는가? NVIDIA의 독점적 지위는 기술적 선택의 결과였을까요?

1. CPU의 벽: 왜 단일 칩으로는 AI를 훈련할 수 없었나?

직렬 vs 병렬: 두 칩의 근본적인 차이는 무엇인가?

CPU(Central Processing Unit)는 범용성을 위해 설계된 칩입니다. 복잡한 논리 연산, 조건 분기, 메모리 관리를 빠르게 처리하는 데 최적화되어 있습니다. 고성능 CPU는 코어(Core)가 수십 개에 달하지만, 각 코어는 매우 강력하고 복잡한 연산을 순차적으로 처리합니다. 이것이 직렬(Serial) 처리 구조입니다.

반면 GPU(Graphics Processing Unit)는 완전히 다른 철학으로 설계되었습니다. 화면에 표시할 픽셀 수백만 개를 동시에 계산해야 하는 그래픽 처리 특성상, GPU는 단순한 연산을 수천 개의 코어가 동시에 처리하는 병렬(Parallel) 구조를 채택합니다. 2006년 기준 고성능 GPU의 코어 수는 CPU의 수백 배에 달했습니다.

딥러닝의 본질이 GPU에 맞는 이유는 무엇인가?

딥러닝 신경망의 핵심 연산은 행렬 곱셈(Matrix Multiplication)입니다. 수백만 개의 파라미터(가중치)와 입력 데이터를 곱하고 더하는 연산이 학습 과정 내내 반복됩니다. 이 연산은 두 가지 특성을 가집니다.

단순성: 각 연산 자체는 그리 복잡하지 않습니다. 곱셈과 덧셈의 반복입니다.

규모: 하지만 그 수가 어마어마합니다. GPT-3 같은 모델 하나를 학습시키려면 수조 번의 행렬 연산이 필요합니다.

즉, 딥러닝 연산은 "매우 복잡한 계산 소수"가 아니라 "매우 단순한 계산 수조 개"입니다. CPU가 강점을 가진 전자가 아닌, GPU가 강점을 가진 후자에 해당합니다. 이것이 GPU가 AI 훈련의 주인공이 된 근본적인 이유입니다.

2010년대 초 AI 연구자들의 추정에 따르면, CPU만으로 현대적인 딥러닝 모델을 학습시키려면 수십 년이 걸리는 경우도 있었습니다. GPU로 전환했을 때 이 시간이 수일~수주로 단축되는 사례가 보고되었습니다.

2. 우연한 발견: 연구자들이 GPU를 AI에 쓴 이유는?

2006~2007년 초기 실험의 맥락

사실 GPU를 일반 연산에 활용하려는 시도는 CUDA 이전에도 있었습니다. 당시 연구자들은 GPU의 쉐이더 프로그래밍 언어를 우회적으로 사용해 행렬 연산을 처리하는 실험을 했습니다. 결과는 놀라웠습니다. CPU 대비 수십~수백 배의 연산 속도가 나온 것입니다. 그러나 이 방식은 매우 불편했습니다. 그래픽 API를 통해서만 GPU에 명령을 내릴 수 있었기 때문에, 과학적 연산을 마치 그래픽 렌더링인 것처럼 "위장"해서 처리해야 했습니다.

당시 토론토 대학의 제프리 힌턴(Geoffrey Hinton) 연구실, 뉴욕 대학의 얀 르쿤(Yann LeCun) 연구실 등에서는 이 불편한 방식으로도 GPU 기반 신경망 학습을 시도하고 있었습니다. 더 쉬운 방법이 절실히 필요했습니다.

CUDA 출시(2007)와 그 의미는 무엇인가?

2007년 NVIDIA는 **CUDA(Compute Unified Device Architecture)**를 공개했습니다. CUDA는 GPU를 그래픽 렌더링이 아닌 범용 병렬 연산에 직접 사용할 수 있도록 설계된 프로그래밍 플랫폼이었습니다. C 언어 기반으로 GPU 코어에 직접 연산을 지시할 수 있게 되었습니다.

이것은 기술적 혁신이기 이전에 생태계 설계였습니다. NVIDIA는 GPU 하드웨어를 팔면서 동시에 그 하드웨어를 최대한 활용할 수 있는 소프트웨어 레이어를 제공했습니다. 이 결정이 10년 후 NVIDIA를 AI 인프라의 핵심 기업으로 만든 초석이었습니다.

CUDA 출시 이후 연구자들은 처음으로 GPU를 "진짜 범용 병렬 컴퓨터"로 사용할 수 있게 되었습니다. 신경망 학습 코드를 C 언어로 작성하고 GPU에서 실행하는 것이 가능해졌습니다.

3. AlexNet 순간: GPU가 AI 역사를 바꾼 2012년은 어떤 순간인가?

2012년 ImageNet 대회가 특별했던 이유

2012년 9월, 세계 최대 이미지 인식 경진대회인 ImageNet LSVRC(Large Scale Visual Recognition Challenge) 결과가 발표되었습니다. 당해 우승팀은 토론토 대학의 알렉스 크리제프스키(Alex Krizhevsky), 일리야 서츠케버(Ilya Sutskever), 제프리 힌턴(Geoffrey Hinton)으로 이루어진 팀이었고, 그들의 모델 이름은 AlexNet이었습니다.

결과는 충격적이었습니다. 2위와의 오류율 차이가 무려 10.8%포인트였습니다. 1위가 15.3%의 오류율을 달성했을 때, 2위는 26.2%였습니다. 기존 방식으로는 1~2%포인트 개선도 어렵던 대회에서 이런 격차는 전례가 없었습니다.

AlexNet의 논문(NeurIPS 2012)에 따르면, 이 모델은 두 개의 NVIDIA GTX 580 GPU로 훈련되었습니다. 당시 기준으로 게임용 소비자 그래픽 카드였던 GTX 580이 AI 역사를 바꾼 것입니다.

GPU 병렬 연산이 AlexNet을 가능하게 한 것들

AlexNet이 이전 모델들과 달랐던 점은 단순히 크기만이 아니었습니다. AlexNet은 당시 기준으로 비교적 깊은 신경망(8개 레이어)이었고, 6,000만 개의 파라미터를 보유하고 있었습니다. 이런 규모의 모델을 합리적인 시간 안에 훈련시키려면 GPU 병렬 연산이 필수였습니다.

GPU가 없었다면 두 가지 제약 중 하나를 선택해야 했습니다. 더 작은 모델(성능 제한)로 가거나, 훈련에 수년이 걸리는 방식으로 가거나. 두 GPU에서 약 5~6일이 걸린 훈련이 CPU만 사용했다면 수십 배 이상의 시간이 필요했을 것으로 추정됩니다.

AlexNet 이후, AI 연구계는 "더 깊은 신경망 + GPU 병렬 연산"의 조합이 돌파구임을 확신했습니다. 그 해부터 딥러닝 연구에 GPU가 사실상 필수 장비가 되었습니다.

4. NVIDIA는 어떻게 AI 인프라의 핵심 기업이 되었나?

CUDA 생태계 구축 전략: 기술이 아닌 점유율

NVIDIA가 AI 인프라의 독점적 지위를 얻은 것은 단순히 GPU 성능이 좋아서가 아닙니다. 핵심은 CUDA 생태계였습니다.

CUDA가 출시된 2007년부터 NVIDIA는 AI·과학 연산 커뮤니티에 CUDA 라이브러리를 무료로 제공하고, 연구자들이 CUDA 기반으로 코드를 작성하도록 유도했습니다. cuDNN(딥러닝 전용 연산 라이브러리), cuBLAS(선형 대수 연산 라이브러리) 등이 이 생태계의 핵심 구성요소입니다.

그 결과, TensorFlow, PyTorch 같은 주요 딥러닝 프레임워크가 CUDA를 기본 백엔드로 채택하게 되었습니다. 오늘날 딥러닝 코드의 대부분은 CUDA 위에서 실행되도록 작성되어 있습니다. 다른 GPU로 전환하려면 이 생태계 전체를 재구성해야 합니다. 이것이 NVIDIA의 진정한 해자(Moat)입니다.

Tesla에서 H100까지: AI 전용 GPU의 계보

NVIDIA는 AI·고성능 컴퓨팅용 데이터센터 GPU 라인을 별도로 개발해왔습니다.

세대	제품	출시 연도	의미
1세대	Tesla C1060	2008	최초 데이터센터용 GPU, CUDA 기반
2세대	Fermi (GF100)	2010	쌍정밀도(FP64) 강화, HPC 타겟
3세대	Kepler (K80)	2012	AlexNet 붐 이후 AI 수요 대응
4세대	Pascal (P100)	2016	NVLink 도입, AI 훈련 본격 최적화
5세대	Volta (V100)	2017	Tensor Core 도입 — AI 행렬 연산 전용 회로
6세대	Ampere (A100)	2020	GPT-3 훈련에 사용, AI 표준 인프라
7세대	Hopper (H100)	2022	GPT-4, Claude 2 등 대형 모델 훈련/추론
8세대	Blackwell (B100/B200)	2024~	Transformer Engine 강화, 추론 최적화

특히 Volta 세대(2017)에서 도입된 Tensor Core는 AI 행렬 연산만을 위한 전용 하드웨어 회로입니다. 이전까지는 범용 CUDA 코어로 처리했던 AI 연산을 전용 회로에서 훨씬 빠르게 처리할 수 있게 되었습니다. AI를 위해 GPU가 아닌 AI를 위해 새로운 칩 아키텍처가 설계되기 시작한 분기점입니다.

5. 오늘날 LLM 학습에 GPU가 얼마나 필요한가?

규모의 현실: 숫자로 본 LLM 훈련

현대 대형 언어 모델(LLM)의 훈련 규모는 AlexNet 시대와 비교가 되지 않습니다.

AlexNet (2012): GTX 580 2개 × 5~6일
GPT-2 (2019): V100 수십 개 × 수주
GPT-3 (2020): A100 수천 개 × 수개월 (추정 훈련 비용: 수백만~수천만 달러)
GPT-4 (2023): A100 수만 개 × 수개월 이상 (OpenAI는 정확한 수치 미공개)
Llama 3 (2024): H100 수만 개 × 수주~수개월

이 숫자들은 단순히 "더 많다"는 것이 아니라, GPU 클러스터 자체가 AI 연구의 핵심 자산임을 의미합니다. 수만 개의 GPU를 소유하고 운영하는 역량이 곧 최첨단 AI 모델을 만들 수 있는 역량이 됩니다.

LLM 훈련 비용과 GPU의 관계

GPU의 사용 방식도 진화했습니다. 단순히 더 많은 GPU를 연결하는 것이 아니라, 어떻게 연결하고 작업을 분배하느냐가 핵심이 되었습니다.

데이터 병렬화(Data Parallelism): 같은 모델을 여러 GPU에 복사하고, 서로 다른 데이터를 처리한 뒤 결과를 합칩니다.
모델 병렬화(Model Parallelism): 모델 자체가 너무 커서 한 GPU에 들어가지 않을 때, 모델을 분할해 여러 GPU에 나눠 올립니다.
파이프라인 병렬화(Pipeline Parallelism): 레이어별로 GPU를 할당해 파이프라인처럼 작업을 처리합니다.
텐서 병렬화(Tensor Parallelism): 행렬 연산 자체를 쪼개 여러 GPU에서 동시에 처리합니다.

GPT-3 규모 이상의 모델을 훈련할 때는 이 네 가지 방식을 조합하는 혼합 병렬화(Hybrid Parallelism) 전략이 필요합니다. 이 최적화 자체가 핵심 엔지니어링 역량이 되었습니다.

6. GPU 혁명이 만든 새로운 권력 구조는 무엇인가?

NVIDIA의 시장 독점: 기술인가, 생태계인가?

2024~2025년 기준 NVIDIA는 AI 훈련용 GPU 시장에서 80% 이상의 점유율을 보유한 것으로 추정됩니다. 이 독점적 지위는 단순히 GPU 성능 때문만은 아닙니다. 앞서 언급한 CUDA 생태계의 잠금 효과(Lock-in)가 핵심입니다.

주요 딥러닝 프레임워크(PyTorch, TensorFlow, JAX), 주요 라이브러리(cuDNN, NCCL), 최적화 컴파일러(TensorRT) 모두 CUDA 위에서 최적화되어 있습니다. 연구자와 엔지니어들이 수년간 쌓은 CUDA 기반 노하우도 전환 비용을 높이는 요인입니다.

대안들은 얼마나 현실적인가?

NVIDIA 독점에 대한 도전이 없는 것은 아닙니다.

AMD ROCm: CUDA의 오픈소스 대안. PyTorch 등에서 지원이 개선되고 있으나, 성능과 호환성에서 여전히 격차가 있다는 평가가 많습니다.
Google TPU(Tensor Processing Unit): 구글이 자체 개발한 AI 전용 칩. JAX 프레임워크와 함께 구글 클라우드에서 활용되며, 일부 대형 모델 훈련에서 경쟁력 있는 성능을 보입니다.
Meta MTIA(Meta Training and Inference Accelerator): 메타가 자체 AI 워크로드를 위해 개발 중인 칩. 2023년부터 내부 배포를 시작했으나 외부 접근은 제한적입니다.
신생 AI 칩 기업: Cerebras(웨이퍼 스케일 칩), Groq(LPU), SambaNova 등이 특화된 성능을 내세우며 경쟁 중입니다.

이 대안들이 NVIDIA의 지위를 단기에 위협할 가능성은 낮다는 것이 현 시점의 중론입니다. 하지만 추론(Inference) 분야에서는 전용 칩들이 빠르게 경쟁력을 키우고 있습니다.

현재와의 연결: AI 추론 비용 하락도 GPU에서 시작된다

추론 비용이 2년 만에 97~99% 하락한 현상(이 주제는 함께 읽을 딥다이브 글 참고)의 뿌리도 GPU 혁명에 있습니다. NVIDIA Hopper(H100) 세대부터 강화된 추론 최적화 기능, Blackwell 세대의 FP8 연산 지원, 그리고 커뮤니티 차원의 추론 최적화(vLLM, TensorRT-LLM, llama.cpp 등)가 모두 GPU 아키텍처의 발전과 맞물려 진행되었습니다.

동시에, GPU 의존도를 줄이려는 시도들도 AI 추론 비용 하락을 이끌고 있습니다. 온디바이스(On-Device) AI, 모델 경량화, CPU 최적화 추론 등이 발전하면서 고가의 GPU 없이도 AI 추론을 수행하는 영역이 넓어지고 있습니다. 이 또한 GPU 혁명이 만들어낸 생태계의 성숙 결과입니다.

다음 편 예고: 딥러닝의 구조 — 신경망은 어떻게 '학습'하는가

07편에서는 GPU라는 엔진을 얻은 AI가 실제로 어떻게 '학습'하는지를 다룹니다. 역전파(Backpropagation), 경사하강법(Gradient Descent), 손실 함수(Loss Function)... 이 개념들이 도대체 무엇을 의미하며, 왜 이 방식이 다른 모든 시도를 압도했는지 살펴봅니다. AI가 '경험으로 배운다'는 것의 수학적 실체를 가능한 한 직관적으로 풀어볼 예정입니다.

핵심 실행 요약: 이 이야기가 오늘날 AI를 이해하는 데 왜 중요한가

역사적 사건	오늘날 AI와의 연결
GPU의 병렬 구조 (1990년대~)	딥러닝 행렬 연산의 물리적 기반
CUDA 출시 (2007)	PyTorch, TensorFlow 생태계의 뿌리
AlexNet (2012)	"딥러닝 = 실용적 AI"의 시작점
Tensor Core 도입 (2017)	AI 전용 하드웨어 시대 개막
A100/H100 클러스터	GPT-4, Claude, Gemini 존재의 물리적 이유
CUDA 생태계 잠금	NVIDIA 독점의 실제 원인
대안 칩 경쟁	추론 비용 하락의 또 다른 동력

오늘날 AI 서비스를 사용하거나 구축하는 모든 사람에게 GPU 혁명의 역사는 단순한 교양이 아닙니다. 왜 AI 훈련 비용이 이렇게 비싼지, 왜 NVIDIA가 이토록 강력한 지위를 가지는지, 왜 AI 추론 비용이 빠르게 하락하는지를 이해하는 데 직접적인 맥락을 제공합니다.

자주 묻는 질문 (FAQ)

Q1. GPU와 CPU는 협력 관계인가요, 경쟁 관계인가요?▾

협력 관계입니다. 실제 AI 시스템에서 CPU는 전체 흐름 제어, 메모리 관리, I/O 처리 등을 담당하고, GPU는 행렬 연산 같은 병렬 처리가 필요한 대규모 연산을 담당합니다. 두 칩은 PCI Express 버스 또는 NVLink로 연결되어 협력합니다.

Q2. CUDA를 배우면 AI 개발에 실제로 도움이 되나요?▾

직접적인 CUDA 프로그래밍은 주로 AI 인프라 엔지니어나 최적화 전문가에게 필요합니다. 일반적인 AI 모델 개발자는 PyTorch나 TensorFlow가 CUDA를 자동으로 활용해주므로 CUDA를 직접 다룰 일이 드뭅니다. 다만 GPU 메모리 구조, 병렬 연산 원리에 대한 이해는 성능 최적화에 도움이 됩니다.

Q3. 소비자용 GPU로도 AI를 학습시킬 수 있나요?▾

네, 가능합니다. NVIDIA RTX 시리즈(RTX 4090 등)는 소비자용이지만 CUDA를 지원하며, 소규모 모델 파인튜닝이나 개인 연구 목적으로 많이 활용됩니다. 다만 메모리(VRAM) 용량이 데이터센터용 GPU(A100: 80GB, H100: 80~141GB)에 비해 훨씬 작아 대형 모델 전체 훈련에는 한계가 있습니다.

Q4. Apple Silicon(M 시리즈)은 AI 훈련에 쓸 수 있나요?▾

가능합니다. Apple의 M 시리즈 칩은 CPU, GPU, Neural Engine을 통합한 SoC(System on Chip) 구조로, 통합 메모리 아키텍처 덕분에 중소형 모델 훈련과 추론에서 에너지 효율이 뛰어납니다. PyTorch는 Apple의 Metal Performance Shaders(MPS) 백엔드를 지원합니다. 다만 CUDA 생태계와의 호환성이 완전하지 않아 일부 라이브러리 제약이 있습니다.

Q5. NVIDIA 주가와 AI 발전이 연동되는 이유가 GPU 때문인가요?▾

핵심 원인 중 하나입니다. AI 모델 훈련과 추론에 NVIDIA GPU가 필수적이기 때문에, AI 투자가 늘어날수록 GPU 수요가 증가합니다. 2023~2024년 생성 AI 붐 시기에 H100 GPU 대기 기간이 수개월에 달했던 것이 그 수요를 보여주는 사례입니다.

Q6. AMD GPU가 AI 분야에서 NVIDIA를 따라잡을 수 있을까요?▾

단기(1~2년)적으로는 어렵다는 것이 현재의 중론입니다. 핵심 장벽은 성능보다 소프트웨어 생태계입니다. AMD의 ROCm 플랫폼이 지속적으로 개선되고 있으나, CUDA 기반으로 최적화된 라이브러리와 도구들을 완전히 대체하려면 상당한 시간이 필요합니다. 다만 추론(Inference) 분야에서는 MI300X 계열이 경쟁력 있는 성능을 보이는 케이스가 있습니다.

Q7. AI 훈련에서 GPU 메모리(VRAM)가 그렇게 중요한 이유는?▾

모델 파라미터, 중간 연산 결과(활성화값), 옵티마이저 상태가 모두 GPU 메모리에 올라가야 하기 때문입니다. 예를 들어 70억 개 파라미터 모델을 FP16 정밀도로 전체 파인튜닝하면 약 70GB 이상의 VRAM이 필요합니다. 메모리가 부족하면 배치 크기를 줄이거나, 그라디언트 체크포인팅, 오프로딩 같은 기법을 써야 하며 이는 훈련 속도를 낮춥니다.

Q8. 미래에 GPU 없이도 AI를 훈련시킬 수 있게 될까요?▾

"GPU 없이"라기보다 "GPU에만 의존하지 않는" 방향으로 발전할 가능성이 있습니다. Google TPU, 특화 AI 칩(Cerebras, Groq), 뉴로모픽 칩(Intel Loihi) 등 다양한 대안이 연구되고 있습니다. 다만 CUDA 생태계의 관성이 워낙 강력해, GPU가 AI 훈련의 주역 자리를 단기에 잃을 가능성은 낮다는 평가가 우세합니다.

Q9. 우리나라는 AI 훈련용 GPU를 충분히 확보하고 있나요?▾

한국의 AI 컴퓨팅 인프라 수준은 미국·중국 대비 격차가 존재한다는 분석이 많습니다. 네이버 클라우드, KT, 삼성SDS 등이 A100/H100 클러스터를 구축하고 있으며, 정부 차원의 AI 컴퓨팅 인프라 투자도 이루어지고 있습니다. 다만 최첨단 프런티어 모델 훈련에 필요한 규모의 GPU 클러스터는 국내에서 확보가 제한적인 상황입니다.

분석 근거

연재 기준: NVIDIA의 공식 역사 자료, GPU 컴퓨팅 관련 학술 논문, AI 인프라 발전사 문헌 교차 분석
검증 자료: CUDA 초기 논문(2007), AlexNet 원논문(2012), NVIDIA 공식 블로그 및 기술 문서
해석 원칙: GPU가 그래픽 가속기에서 범용 병렬 연산 장치로 전환된 역사적 흐름 중심, 현대 LLM 학습과의 연결고리 분석

핵심 주장과 근거

이 섹션은 본문 핵심 주장과 근거 출처를 1:1로 대응해 빠르게 검증할 수 있도록 구성했습니다. 아래 항목에서 주장과 원문 링크를 함께 확인하세요.

주장:AlexNet(2012)이 GPU 기반 병렬 연산으로 ImageNet 대회 오류율을 기존 대비 41% 낮추며 딥러닝 시대를 열었다
근거 출처:Krizhevsky et al. NeurIPS 2012 Paper
주장:NVIDIA CUDA(2007)가 GPU를 그래픽 전용에서 범용 병렬 연산 장치로 전환시킨 핵심 소프트웨어 플랫폼이다
근거 출처:NVIDIA Official CUDA Documentation

외부 인용 링크

아래 링크는 본문 수치와 주장에 직접 사용한 원문 출처입니다. 항목별 원문 맥락을 확인하면 해석 차이를 줄이고 재검증 속도를 높일 수 있습니다.

X LinkedIn

이 글에 대해 궁금한 점이 있으신가요?

질문하기에서 로그인 후 익명으로 질문해 보세요.

질문하기