[AI로 가는 길 07] 딥러닝의 구조: 역전파와 경사하강법, 신경망은 어떻게 스스로 학습하는가

핵심 요약: GPU라는 엔진을 갖춘 AI가 실제로 어떻게 '학습'하는지 살펴봅니다. 신경망이 수조 번의 계산으로 스스로 오차를 줄여가는 원리 — 역전파와 경사하강법 — 이 개념들을 수학 없이 직관적으로 이해해봅니다. 오늘날 ChatGPT, Claude, Gemini가 존재하는 이유가 여기에 있습니다.

이번 편의 질문

지난 06편에서 우리는 GPU 혁명이 어떻게 딥러닝 연산 속도를 1,000배 이상 높였는지 살펴보았습니다. AlexNet(2012)이 두 개의 소비자용 GPU로 이미지 인식의 역사를 바꿨고, CUDA 생태계가 오늘날 AI 인프라의 기반이 되었습니다. 엔진이 생겼습니다.

이번 편에서 우리가 던지는 핵심 질문은 세 가지입니다.

신경망은 어떻게 '학습'하는가? AI가 경험으로 배운다는 것의 수학적 실체는 무엇인가.
역전파란 무엇인가? 어떻게 신경망이 자신의 실수를 통해 개선되는가.
경사하강법이란 무엇인가? 손실을 최소화하는 반복 과정의 원리는 무엇인가.

1. 신경망의 기본 구조: 뇌를 모방한 계산 그래프

뉴런과 레이어: 신경망은 어떻게 생겼는가?

신경망(Neural Network)은 이름 그대로 생물학적 뇌의 신경망에서 영감을 받은 구조입니다. 그러나 실제 작동 방식은 생물 뇌와 다르며, 본질은 수학적 함수의 연결입니다.

신경망의 기본 단위는 뉴런(Neuron) 또는 **노드(Node)**입니다. 각 뉴런은 다음을 수행합니다.

이전 레이어에서 여러 입력값을 받는다.
각 입력에 **가중치(Weight)**를 곱하고 모두 더한다.
**편향(Bias)**을 더한다.
**활성화 함수(Activation Function)**를 통과시킨다.
결과를 다음 레이어로 전달한다.

이것이 전부입니다. 놀라울 정도로 단순해 보이지만, 이 단순한 연산을 수백만~수십억 개의 뉴런이 레이어를 쌓아 반복하면 복잡한 패턴을 인식하는 능력이 생깁니다.

가중치(Weight)는 왜 중요한가?

가중치는 신경망에서 "학습된 지식"을 저장하는 곳입니다. GPT-3에는 약 1,750억 개의 파라미터(가중치 + 편향)가 있습니다. 이 1,750억 개의 숫자가 GPT-3가 언어를 이해하는 방식 전체를 담고 있습니다.

처음에는 이 가중치들이 무작위(Random)로 초기화됩니다. 학습이란 이 무작위 숫자들을 데이터로부터 "올바른 값"으로 조정해나가는 과정입니다.

2. 손실 함수: 신경망의 오답지

손실 함수란 무엇인가?

신경망이 학습하려면 먼저 자신이 얼마나 틀렸는지 측정할 방법이 필요합니다. 이를 손실 함수(Loss Function) 또는 **비용 함수(Cost Function)**라고 합니다.

직관적인 예시를 들어봅시다.

신경망에 고양이 사진을 보여주고 "이것은 고양이입니까?"라고 물었습니다. 신경망이 "고양이일 확률: 30%, 개일 확률: 70%"라고 답했습니다. 정답은 "고양이"입니다.

이 경우 손실(Loss)은 크게 나옵니다. 70% 틀렸기 때문입니다.

반대로 "고양이일 확률: 95%"라고 답했다면 손실은 작게 나옵니다. 학습의 목표는 이 손실 값을 계속 줄이는 것입니다.

왜 손실을 0으로 만들면 안 되는가?

손실을 0으로 만드는 것이 목표처럼 들리지만, 실제로는 위험합니다. 훈련 데이터에서만 손실이 0이 되고, 새로운 데이터(테스트 데이터)에서는 성능이 급락하는 과적합(Overfitting) 현상이 발생하기 때문입니다.

신경망은 모든 훈련 데이터를 "암기"해서는 안 됩니다. 패턴을 "이해"해야 합니다. 적절한 수준의 손실을 허용하면서 일반화(Generalization) 능력을 유지하는 것이 학습의 진짜 목표입니다.

3. 경사하강법: 손실의 언덕을 내려가는 방법

경사하강법이란 무엇인가?

**경사하강법(Gradient Descent)**은 손실 함수의 값을 최소화하기 위해 파라미터를 반복 조정하는 알고리즘입니다.

산 위에서 눈을 가린 채 최저점을 찾아야 한다고 상상해봅시다. 발로 바닥의 경사를 느끼고, 가장 가파르게 내려가는 방향으로 한 걸음씩 이동하면 결국 낮은 곳에 도달합니다. 이것이 경사하강법의 직관입니다.

수학적으로는 다음과 같이 작동합니다.

현재 가중치 값에서 손실 함수의 **기울기(Gradient)**를 계산한다.
기울기의 반대 방향으로 가중치를 조금씩 이동한다.
이 과정을 수만~수백만 번 반복한다.

학습률(Learning Rate)은 왜 중요한가?

"조금씩 이동"할 때의 이동 거리를 결정하는 것이 **학습률(Learning Rate)**입니다.

학습률이 너무 크면: 보폭이 너무 커서 최저점을 지나쳐버리거나, 오히려 손실이 커지는 발산(Divergence)이 발생합니다.
학습률이 너무 작으면: 학습이 지나치게 느려지거나, 지역 최솟값(Local Minimum)에 빠져나오지 못합니다.

학습률을 어떻게 설정하느냐가 신경망 훈련의 핵심 기술 중 하나입니다. 현대 딥러닝에서는 Adam, AdaGrad 같은 적응형 최적화 알고리즘이 학습률을 자동으로 조정해주면서 이 문제를 상당 부분 해결했습니다.

4. 역전파: 신경망이 실수에서 배우는 방법

역전파란 무엇인가?

신경망에서 가장 중요하면서 가장 이해하기 어려운 개념이 **역전파(Backpropagation)**입니다.

문제를 먼저 짚어봅시다. 신경망의 손실이 크다고 가정합니다. 이제 가중치를 수정해야 합니다. 그런데 신경망에는 가중치가 수백만 개나 있습니다. 각 가중치가 최종 손실에 얼마나 기여했는지 어떻게 알 수 있을까요?

마지막 레이어부터 첫 번째 레이어로 역방향으로 오차를 전파하며, 각 가중치가 손실에 기여한 정도(기울기)를 계산합니다. 이것이 역전파입니다.

역전파는 어떻게 작동하는가?

역전파는 **연쇄 법칙(Chain Rule)**이라는 수학적 원리를 활용합니다.

직관적으로 이해해봅시다.

팀 프로젝트에서 최종 결과물이 나왔습니다. 결과가 나쁘다면, 누가 얼마나 기여했는지 거꾸로 추적해야 합니다. 마지막 발표자가 잘못 설명한 것인지, 중간 편집자가 내용을 바꾼 것인지, 처음 조사를 잘못한 것인지 순서대로 거슬러 올라가며 책임 비율을 파악합니다.

역전파도 마찬가지입니다. 최종 손실로부터 역방향으로 각 뉴런의 기여도를 계산합니다. 이 기여도가 바로 **기울기(Gradient)**이고, 이를 이용해 각 가중치를 얼마나 어느 방향으로 수정할지 결정합니다.

역전파의 역사적 의미는 무엇인가?

역전파의 수학적 기초는 1960~70년대에 확립되었지만, 이를 신경망 학습에 효과적으로 적용한 것은 1986년 제프리 힌턴(Geoffrey Hinton), 데이비드 루멀하트(David Rumelhart), 로널드 윌리엄스(Ronald Williams)의 논문에서였습니다.

이 논문은 Nature에 게재되었으며, 다층 신경망을 효과적으로 훈련시킬 수 있음을 증명했습니다. 그 이전에는 "신경망 학습은 불가능하다"는 회의론이 강했습니다. 역전파가 그 벽을 허문 것입니다.

5. 한 번의 학습 사이클: 정방향 전파와 역방향 전파

신경망의 한 번 학습은 어떻게 이루어지는가?

완전한 한 번의 학습 사이클은 다음 단계로 이루어집니다.

1단계: 정방향 전파(Forward Pass)

입력 데이터(예: 고양이 사진)가 첫 번째 레이어부터 마지막 레이어까지 순서대로 통과합니다. 각 레이어에서 현재 가중치로 계산을 수행하고, 최종 출력(예: 고양이/개 확률)을 생성합니다.

2단계: 손실 계산

정답(레이블)과 신경망의 출력을 비교해 손실 값을 계산합니다.

3단계: 역방향 전파(Backward Pass / Backpropagation)

손실로부터 역방향으로 기울기를 계산합니다. 마지막 레이어에서 첫 번째 레이어까지 연쇄 법칙을 적용해 각 가중치의 기울기를 구합니다.

4단계: 가중치 업데이트

경사하강법을 적용해 각 가중치를 기울기 반대 방향으로 학습률만큼 이동시킵니다.

이 4단계가 하나의 학습 반복(Iteration)입니다. GPT-3를 훈련할 때는 이 사이클이 수조 번 반복됩니다.

6. 미니배치와 확률적 경사하강법: 실전에서 어떻게 쓰는가?

전체 데이터로 한 번에 학습하면 안 되는 이유

이론적으로는 전체 훈련 데이터를 한 번에 넣어 기울기를 계산하는 **배치 경사하강법(Batch Gradient Descent)**이 가장 정확합니다. 그러나 현실적으로 불가능합니다. GPT-3의 훈련 데이터는 수백 기가바이트에 달하며, 이를 한 번에 GPU 메모리에 올리는 것은 불가능합니다.

확률적 경사하강법(SGD)과 미니배치

현실적인 해법은 **확률적 경사하강법(Stochastic Gradient Descent, SGD)**입니다. 데이터를 작은 묶음(미니배치, Mini-batch)으로 나누어 각각 기울기를 계산하고 가중치를 업데이트합니다.

미니배치의 크기(배치 크기)는 보통 32~2048 범위에서 선택합니다. 작은 배치는 메모리 효율이 좋고 학습 다양성이 높지만 불안정할 수 있습니다. 큰 배치는 안정적이지만 GPU 메모리를 많이 필요로 하고 특정 경우 일반화 성능이 떨어질 수 있습니다.

7. 오늘날 LLM 학습과의 연결: 역전파는 ChatGPT에서도 쓰이는가?

역전파는 현대 LLM 학습의 기반인가?

예, 역전파와 경사하강법은 오늘날 ChatGPT, Claude, Gemini 같은 대형 언어 모델(LLM)을 훈련시키는 데도 동일하게 적용됩니다. 1986년의 원리가 2020년대 최첨단 AI에서도 핵심 메커니즘으로 작동하고 있습니다.

다만 규모와 복잡도에서 차이가 있습니다.

항목	AlexNet (2012)	GPT-3 (2020)	현대 LLM (2025~)
파라미터 수	6,000만 개	1,750억 개	수천억~수조 개
훈련 데이터	수 GB	수백 GB	수 TB
GPU	GTX 580 × 2	A100 × 수천	H100 × 수만
학습 기간	5~6일	수개월	수개월~수년

RLHF: 역전파 이후에 무엇이 추가되었는가?

현대 LLM은 기본 훈련 이후 RLHF(Reinforcement Learning from Human Feedback) 단계를 거칩니다. 사람이 AI 출력을 평가하면, 그 평가를 신호로 더 좋은 답변을 내도록 추가 학습합니다.

ChatGPT가 단순히 텍스트를 예측하는 모델이 아니라 대화에 적합한 방식으로 응답하는 이유가 여기에 있습니다. RLHF도 역전파를 활용하지만, 보상 신호(Reward Signal)를 사람의 평가에서 가져온다는 점이 다릅니다.

다음 편 예고: 트랜스포머 — 언어를 이해하는 구조의 탄생

08편에서는 현대 AI 혁명의 진짜 출발점, 트랜스포머(Transformer) 아키텍처를 다룹니다. 2017년 "Attention Is All You Need" 논문 하나가 어떻게 NLP 역사를 다시 썼는지, 셀프 어텐션(Self-Attention)이 왜 그토록 강력한지, 그리고 트랜스포머가 어떻게 GPT, BERT, Claude의 공통 기반이 되었는지 살펴봅니다.

핵심 실행 요약: 딥러닝 학습 원리가 AI를 이해하는 데 왜 중요한가

개념	오늘날 AI와의 연결
신경망 구조 (레이어·가중치)	LLM 파라미터의 물리적 정체
손실 함수	AI가 "얼마나 틀렸는지" 측정하는 기준
경사하강법	GPT·Claude가 학습한 방법의 핵심
역전파 (1986)	딥러닝을 가능하게 만든 알고리즘
미니배치 SGD	수조 개 파라미터를 현실적으로 학습하는 방법
RLHF	ChatGPT·Claude가 "좋은 답변"을 하도록 만드는 과정

자주 묻는 질문 (FAQ)

Q1. 역전파를 직접 코딩해야 AI를 만들 수 있나요?▾

A: 현재는 그렇지 않습니다. PyTorch나 TensorFlow 같은 딥러닝 프레임워크가 역전파를 자동으로 처리해주는 자동 미분(Autograd) 기능을 제공합니다. 개발자는 모델 구조와 손실 함수만 정의하면 됩니다. 그러나 역전파의 원리를 이해하면 학습이 잘 안 될 때 원인을 파악하는 데 큰 도움이 됩니다.

Q2. 신경망이 항상 최적의 가중치를 찾을 수 있나요?▾

A: 보장되지 않습니다. 경사하강법은 지역 최솟값(Local Minimum)에 빠질 수 있으며, 전역 최솟값(Global Minimum)을 찾는다는 보장이 없습니다. 다만 매우 깊은 신경망에서는 지역 최솟값도 충분히 좋은 해에 해당하는 경우가 많다는 실증적 관찰이 있습니다.

Q3. 학습 데이터가 많을수록 항상 좋은 신경망이 만들어지나요?▾

A: 일반적으로 그렇지만 조건이 있습니다. 데이터가 편향되거나 노이즈가 많으면 데이터가 많아도 성능이 떨어질 수 있습니다. 데이터의 양보다 질과 다양성이 더 중요한 경우가 많습니다.

Q4. 딥러닝과 머신러닝의 차이는 무엇인가요?▾

A: 머신러닝은 데이터로부터 패턴을 학습하는 방법들의 총칭입니다. 딥러닝은 머신러닝의 하위 분야로, 특히 여러 레이어를 쌓은 깊은 신경망을 활용하는 방법입니다. 딥러닝은 특징(Feature)을 사람이 정의하지 않아도 모델이 스스로 추출한다는 점에서 전통적 머신러닝과 차별화됩니다.

Q5. 신경망이 '이해'한다는 것은 사실인가요?▾

A: 이 질문은 AI 철학의 핵심 논쟁입니다. 신경망은 수학적으로 패턴을 매핑(Mapping)하는 함수입니다. 인간적 의미의 "이해"를 하는지는 여전히 논쟁 중이지만, "의미 있는 패턴을 추출하고 일반화하는 능력"이 있다는 것은 확실합니다.

Q6. LLM의 "파라미터가 많다"는 것이 왜 중요한가요?▾

A: 파라미터가 많을수록 모델이 더 복잡한 패턴을 표현할 수 있는 용량(Capacity)이 커집니다. 그러나 더 많은 파라미터는 더 많은 훈련 데이터, 더 많은 GPU, 더 많은 시간을 필요로 합니다. 단순히 크다고 좋은 것이 아니라 데이터와 컴퓨팅 자원과의 균형이 중요합니다.

Q7. 왜 딥러닝이 2010년대에야 주목받았나요? 원리는 1980년대에 있었는데.▾

A: 세 가지가 부족했습니다. ① 데이터 — 인터넷 이전에는 대규모 레이블 데이터가 없었습니다. ② 컴퓨팅 — GPU 혁명(06편)이 있어야 했습니다. ③ 알고리즘 개선 — ReLU 활성화 함수, 드롭아웃, 배치 정규화 같은 실용적 기법들이 2000~2010년대에 개발되었습니다. 이 세 요소가 2012년 AlexNet에서 처음 완전히 결합되었습니다.

Q8. 오늘날 LLM이 역전파만으로 훈련되는 건가요?▾

A: 기본 사전 학습(Pre-training) 단계는 역전파 기반입니다. 이후 RLHF(인간 피드백 강화학습) 단계에서는 보상 모델(Reward Model)과 정책 최적화(PPO 등)가 추가됩니다. 그러나 이 모든 과정에서 역전파와 경사하강법이 핵심 메커니즘으로 동작합니다.

Q9. "기울기 소실"이란 무엇인가요?▾

A: 역전파가 여러 레이어를 거슬러 올라가면서 기울기 값이 점점 작아져 0에 가까워지는 현상입니다. 기울기가 너무 작아지면 앞쪽 레이어의 가중치가 거의 업데이트되지 않아 학습이 멈춥니다. ReLU 활성화 함수, 잔차 연결(Residual Connection, ResNet에서 도입), 배치 정규화(Batch Normalization) 등이 이 문제를 해결하기 위해 개발되었습니다.

업데이트 기준

이 글은 2026년 3월 기준 딥러닝 학습 원리에 관한 공개 자료를 바탕으로 작성되었습니다. 기본 원리 자체는 안정적이나, 최신 최적화 기법과 LLM 학습 방법론은 지속적으로 발전하고 있습니다.