[AI로 가는 길 09] 트랜스포머 다음 단계: 프리트레이닝·파인튜닝·RLHF를 한 번에 이해하기
트랜스포머가 엔진이라면, 프리트레이닝·파인튜닝·RLHF는 그 엔진을 실제로 움직이게 하는 학습 공정입니다. ChatGPT 같은 대화형 AI가 어떻게 만들어지는지 직관적으로 설명합니다.
AI 보조 작성 · 편집팀 검수이 블로그 콘텐츠는 AI 보조 도구를 활용해 초안/구조화를 수행할 수 있으며, Trensee 편집팀 검수 후 발행됩니다.
시리즈 전체 보기 (9 / 9)▾
- 1.AI로 가는 길 01: 컴퓨터는 어떻게 태어났을까
- 2.AI로 가는 길 02: 트랜지스터와 집적회로, AI 비용의 원형을 만들다
- 3.AI로 가는 길 03: 운영체제와 네트워크, 왜 오늘의 AI 서비스 품질을 결정하는가
- 4.AI로 가는 길 04: 월드 와이드 웹과 정보의 민주화, 집단 지성에서 인공지능으로
- 5.[AI로 가는 길 05] 인프라의 혁명: 분산 컴퓨팅이 AI의 '뇌세포'를 수조 개로 늘린 방법
- 6.[AI로 가는 길 06] GPU 혁명: NVIDIA의 CUDA가 어떻게 AI의 속도를 1,000배 높였나
- 7.[AI로 가는 길 07] 딥러닝의 구조: 역전파와 경사하강법, 신경망은 어떻게 스스로 학습하는가
- 8.[AI로 가는 길 08] 트랜스포머 혁명: "Attention Is All You Need" — 현대 LLM의 출발점
- 9.[AI로 가는 길 09] 트랜스포머 다음 단계: 프리트레이닝·파인튜닝·RLHF를 한 번에 이해하기
핵심 요약: 08편에서 트랜스포머가 현대 LLM의 구조적 출발점이라는 점을 살펴봤습니다. 이번 09편에서는 그 구조가 어떻게 실제로 훈련되는지 봅니다. 프리트레이닝은 언어의 기반을 익히는 과정이고, 파인튜닝은 용도를 선명하게 만드는 과정이며, RLHF는 "사람에게 더 도움이 되는 답"으로 정렬하는 과정입니다.
이번 편의 질문
트랜스포머를 이해했다고 해서 곧바로 ChatGPT를 이해한 것은 아닙니다. 구조가 아무리 좋아도, 어떤 데이터로 어떤 순서로 훈련하느냐에 따라 결과는 완전히 달라집니다.
이번 편의 핵심 질문은 세 가지입니다.
- 프리트레이닝은 무엇을 배우는 단계인가?
- 파인튜닝은 왜 필요한가?
- RLHF는 어떻게 "말이 통하는 AI"를 만들었는가?
1. 프리트레이닝: 언어의 지도를 먼저 그린다
프리트레이닝이란 무엇인가?
프리트레이닝(Pre-training)은 LLM이 인터넷 텍스트, 책, 문서, 코드 같은 대규모 데이터에서 언어의 기본 패턴을 익히는 단계입니다. 핵심 과제는 단순합니다. "다음 토큰이 무엇일까?"를 계속 맞혀보는 것입니다.
예를 들어:
"인공지능은 앞으로 ___"
이 빈칸에 올 단어를 맞히는 과정을 수조 번 반복하면서, 모델은 문법, 상식, 문장 구조, 주제 전개, 단어 간 관계를 통계적으로 익힙니다.
왜 이 단계가 중요한가?
프리트레이닝은 AI에게 "언어 감각"을 심는 단계입니다. 사람으로 비유하면 초등학교부터 대학교까지 수많은 글을 읽으며 세상에 대한 감각을 쌓는 과정과 비슷합니다.
이 단계가 없으면 이후의 모든 정교한 미세조정도 의미가 없습니다. 기본 언어 패턴과 지식 표현 능력이 없기 때문입니다.
GPT와 BERT는 여기서 어떻게 갈라졌나?
2018년은 중요한 해였습니다.
- GPT는 생성 중심 접근을 보여줬습니다. 왼쪽에서 오른쪽으로 다음 단어를 예측합니다.
- BERT는 이해 중심 접근을 보여줬습니다. 가려진 단어를 문맥으로 채웁니다.
둘 다 프리트레이닝이라는 큰 흐름 안에 있지만, 하나는 "잘 쓰는 모델", 다른 하나는 "잘 읽는 모델"의 길을 열었습니다.
2. 파인튜닝: 범용 두뇌를 특정 역할에 맞춘다
파인튜닝은 왜 필요한가?
프리트레이닝된 모델은 언어를 폭넓게 알지만, 아직 사용자의 특정 요구에 맞춰져 있지 않습니다. 그래서 파인튜닝(Fine-tuning)이 필요합니다.
예를 들어 프리트레이닝만 마친 모델은 이런 문제가 있습니다.
- 말은 유창하지만 질문 의도를 잘 따르지 않는다
- 불필요하게 장황하다
- 특정 업무 형식에 맞는 답변을 못 한다
- 사람 입장에서 불친절하거나 위험한 답을 할 수 있다
파인튜닝은 이 범용 모델을 특정 역할에 맞게 다듬는 단계입니다.
어떤 방식으로 다듬는가?
가장 직관적인 방식은 **지도 미세조정(SFT, Supervised Fine-Tuning)**입니다. 사람이 만든 좋은 질문-답변 예시를 보여주고 그 형식을 따라하게 만드는 방식입니다.
즉:
질문: "RAG가 뭐야?" -> 답변: "외부 문서를 검색해 LLM 답변 정확도를 높이는 방식입니다."
질문: "RAG 장점 3가지만 알려줘." -> 답변: "최신성, 근거 제시, 도메인 맞춤성입니다."
질문: "우리 팀에 어떻게 적용해?" -> 답변: "사내 문서를 인덱싱하고, 검색+생성 파이프라인을 붙이면 됩니다."
이 데이터를 통해 모델은 "이런 질문에는 이런 형식으로 답해야 하는구나"를 학습합니다.
파인튜닝만으로 충분했을까?
아니었습니다. 파인튜닝은 형식을 잡아주지만, 사람이 실제로 선호하는 답변의 미묘한 차이까지 다 담기 어렵습니다.
예를 들어 둘 다 사실은 맞지만:
- 답변 A: 정확하지만 차갑고 불친절하다
- 답변 B: 정확하고 구조도 좋고, 불확실성도 명시한다
이 차이를 더 세밀하게 반영하려면 다른 단계가 필요했습니다. 그게 RLHF입니다.
3. RLHF: "맞는 답"에서 "도움 되는 답"으로
RLHF란 무엇인가?
RLHF는 Reinforcement Learning from Human Feedback의 약자입니다. 한국어로는 보통 인간 피드백 강화학습이라고 부릅니다.
핵심 아이디어는 단순합니다. 사람이 여러 답변을 비교해 "어느 쪽이 더 낫다"를 알려주면, 모델이 그 선호를 점점 더 잘 따르게 만드는 것입니다.
RLHF는 어떤 순서로 작동하는가?
보통 세 단계로 이해하면 쉽습니다.
- 기본 모델 준비: 프리트레이닝된 LLM
- SFT 적용: 질문-답변 예시로 기본 형식 학습
- 선호도 학습: 사람이 더 좋은 답을 고른 데이터를 기반으로 보상 모델을 만들고, 이후 모델을 그 방향으로 조정
즉 RLHF는 "정답"보다 "사람이 실제로 선호하는 답변"을 학습시키는 과정입니다.
왜 ChatGPT가 이전 모델과 달라 보였나?
많은 사람이 ChatGPT를 처음 썼을 때 느낀 차이는 단순히 지식량이 아니었습니다. 더 예의 바르고, 질문을 따라가고, 필요하면 한계를 인정하고, 구조화된 답을 주는 느낌이 강했습니다.
그 이유가 바로 RLHF입니다. 모델이 언어를 아는 것과, 사람에게 유용하게 답하는 것은 다른 문제였기 때문입니다.
4. PPO는 왜 등장했나
RLHF 논문에서 자주 같이 나오는 이름이 PPO입니다. Proximal Policy Optimization이라는 강화학습 알고리즘입니다.
직관적으로 보면 PPO는 모델을 한 번에 너무 크게 바꾸지 않도록 하는 안전장치에 가깝습니다. 사람 선호를 반영하되, 이미 잘 배운 언어 능력을 한꺼번에 망가뜨리지 않도록 조정하는 것입니다.
즉 RLHF는 단순히 "좋은 답을 더 칭찬한다"가 아니라, 모델을 천천히 선호 방향으로 미세조정하는 절차입니다.
2023년 이후에는 PPO보다 단순한 **DPO(Direct Preference Optimization)**가 빠르게 확산됐습니다. 보상 모델을 별도로 학습하지 않고 선호 데이터에서 직접 정책을 조정할 수 있어 구현 부담이 낮기 때문입니다. 다만 최근 비교 연구에서는 추론·코딩 같은 일부 구간에서 PPO가 DPO보다 높은 성능을 보인 결과도 보고되어, 실제 선택은 과제 특성과 데이터 품질에 따라 달라집니다.
5. 프리트레이닝·파인튜닝·RLHF는 각각 무엇을 담당하나
| 단계 | 역할 | 비유 |
|---|---|---|
| 프리트레이닝 | 언어와 지식의 기본 패턴 학습 | 세상을 넓게 읽는 과정 |
| 파인튜닝 | 특정 업무 형식과 반응 방식 학습 | 직무 교육 |
| RLHF | 사람 선호와 안전한 응답 방향 정렬 | 실제 서비스 매너 훈련 |
이 세 단계를 한 번에 이해해야, 왜 같은 트랜스포머 기반 모델도 서로 다른 성격을 가지는지 알 수 있습니다.
6. 현대 LLM은 이 파이프라인을 어떻게 확장했나
지금의 GPT, Claude, Gemini는 이 기본 구조를 더 정교하게 확장했습니다.
- 더 큰 사전학습 데이터
- 더 긴 컨텍스트
- 더 나은 미세조정 데이터
- 더 정교한 선호 학습
- 인간 피드백의 확장: AI 피드백(RLAIF) 활용
- 추론 특화 강화학습: GRPO 같은 그룹 상대 최적화 기법 활용
- 안전성, 도구 사용, 메모리 같은 추가 계층
예를 들어 Anthropic의 Claude 계열은 Constitutional AI를 통해 RLAIF를 공개적으로 설명해 왔습니다. 또한 DeepSeekMath와 DeepSeek-R1은 GRPO를 추론 강화학습 프레임워크로 명시합니다. 반면 OpenAI o1 계열은 대규모 강화학습 사용을 공개했지만, GRPO 같은 세부 알고리즘 명칭은 공개 문서 기준으로 명시하지 않았습니다.
하지만 뼈대는 여전히 같습니다.
언어를 먼저 배우고 → 역할에 맞게 다듬고 → 사람 선호에 맞게 정렬한다.
다음 편 예고
09편에서는 LLM의 학습 공정을 다뤘습니다. 다음 10편에서는 스케일링 법칙과 컨텍스트 창의 확장을 다룰 예정입니다. 왜 더 큰 모델과 더 긴 컨텍스트가 성능을 밀어올렸는지, 그리고 그 대가가 무엇인지 살펴봅니다.
핵심 실행 요약
| 개념 | 이해 포인트 |
|---|---|
| 프리트레이닝 | 언어의 기본 패턴과 세계 지식을 익히는 단계 |
| 파인튜닝 | 특정 질문 형식과 업무 목적에 맞게 조정하는 단계 |
| RLHF | 사람이 선호하는 응답 방향으로 정렬하는 단계 |
| PPO | 모델을 무리 없이 선호 방향으로 조정하는 강화학습 기법 |
| DPO | 보상 모델 없이 선호 데이터에서 직접 정렬하는 기법 |
| RLAIF | AI가 생성한 선호 피드백으로 정렬 단계를 확장하는 방식 |
| GRPO | 그룹 상대 점수로 추론 강화학습을 수행하는 기법 |
| 현대 LLM | 위 3단계를 대규모로 정교하게 확장한 결과 |
자주 묻는 질문(FAQ)
Q1. 프리트레이닝만 잘하면 대화형 AI가 바로 되나요?▾
아닙니다. 프리트레이닝은 언어 감각의 기반일 뿐입니다. 사람 지시를 잘 따르고 서비스에 적합한 응답을 하려면 파인튜닝과 정렬 단계가 필요합니다.
Q2. RLHF가 없으면 어떤 문제가 생기나요?▾
사실은 맞는데 불친절하거나, 질문 의도를 제대로 따라가지 못하거나, 불필요하게 공격적이거나 위험한 응답이 늘어날 수 있습니다. 즉 "지식은 있는데 대화형 제품으로 쓰기 어려운" 상태가 됩니다.
Q3. 모든 LLM이 같은 학습 단계를 거치나요?▾
세부 구현은 다르지만 큰 틀은 비슷합니다. 다만 어떤 데이터로 사전학습했고, 어떤 방식으로 선호를 반영했는지에 따라 모델 성격이 달라집니다.
함께 읽으면 좋은 글
분석 근거
- 연재 기준: GPT(2018), BERT(2018), InstructGPT(2022) 등 LLM 학습 방식의 핵심 논문과 공개 자료를 직관 중심으로 재구성
- 검증 자료: 사전학습, 지도 미세조정, 인간 피드백 기반 정렬 단계에 관한 원논문과 표준 설명
- 해석 원칙: 수식보다 학습 파이프라인의 역할 분담과 현대 대화형 AI와의 연결을 우선
핵심 주장과 근거
이 섹션은 본문 핵심 주장과 근거 출처를 1:1로 대응해 빠르게 검증할 수 있도록 구성했습니다. 아래 항목에서 주장과 원문 링크를 함께 확인하세요.
주장:프리트레이닝은 대규모 텍스트에서 다음 토큰 예측을 통해 일반 언어 패턴을 익히는 단계다
근거 출처:Radford et al. 2018주장:InstructGPT는 인간 피드백을 활용한 정렬 단계가 사용자 지시에 더 잘 따르는 모델을 만드는 데 중요함을 보여줬다
근거 출처:Ouyang et al. 2022주장:DPO는 보상 모델 학습 없이 선호쌍으로 직접 정책을 최적화하는 접근으로 제시됐다
근거 출처:Rafailov et al. 2023주장:최근 비교 연구에서는 PPO가 일부 추론·코딩 평가에서 DPO보다 높은 성능을 보인 결과가 보고됐다
근거 출처:Ivison et al. 2024주장:Constitutional AI는 RL 단계에서 AI 선호를 이용하는 RLAIF를 사용한다고 명시한다
근거 출처:Bai et al. 2022주장:GRPO는 DeepSeekMath에서 제안됐고 DeepSeek-R1에서 추론 강화학습 프레임워크로 사용됐다
근거 출처:Shao et al. 2024; DeepSeek-AI et al. 2025주장:OpenAI o1은 대규모 강화학습을 사용한다고 공개했으나 세부 알고리즘 명칭은 공개 문서에서 확인되지 않는다
근거 출처:OpenAI: Learning to reason with LLMs
외부 인용 링크
아래 링크는 본문 수치와 주장에 직접 사용한 원문 출처입니다. 항목별 원문 맥락을 확인하면 해석 차이를 줄이고 재검증 속도를 높일 수 있습니다.
- Radford et al.: Improving Language Understanding by Generative Pre-Training (2018)
- Devlin et al.: BERT (2018)
- Ouyang et al.: Training language models to follow instructions with human feedback (InstructGPT, 2022)
- Schulman et al.: Proximal Policy Optimization Algorithms (2017)
- Rafailov et al.: Direct Preference Optimization (2023)
- Ivison et al.: Unpacking DPO and PPO (NeurIPS 2024)
- Bai et al.: Constitutional AI: Harmlessness from AI Feedback (2022)
- Lee et al.: RLAIF vs. RLHF (2023)
- Shao et al.: DeepSeekMath (2024)
- DeepSeek-AI et al.: DeepSeek-R1 (2025)
- OpenAI: Learning to reason with LLMs (o1, 2024)
이 글에 대해 궁금한 점이 있으신가요?
질문하기에서 로그인 후 익명으로 질문해 보세요.
관련 포스트
관련 포스트는 현재 글의 선택 기준을 다른 상황에서 비교 검증할 수 있도록 선별했습니다. 관점을 확장하려면 아래 글을 순서대로 확인해 보세요.
[시리즈][AI로 가는 길 08] 트랜스포머 혁명: "Attention Is All You Need" — 현대 LLM의 출발점
2017년 구글이 발표한 논문 하나가 AI의 역사를 바꿨다. RNN·LSTM의 한계를 뛰어넘은 트랜스포머 아키텍처, 그리고 그 핵심인 셀프 어텐션 메커니즘 — 오늘날 ChatGPT·Claude·Gemini가 존재하는 수학적 이유를 직관적으로 풀어봅니다.
[시리즈][AI로 가는 길 07] 딥러닝의 구조: 역전파와 경사하강법, 신경망은 어떻게 스스로 학습하는가
GPU라는 엔진을 갖춘 AI가 실제로 어떻게 '학습'하는지 살펴봅니다. 역전파(Backpropagation), 경사하강법(Gradient Descent), 손실 함수(Loss Function)를 가능한 직관적으로 풀어봅니다.
[시리즈][AI로 가는 길 06] GPU 혁명: NVIDIA의 CUDA가 어떻게 AI의 속도를 1,000배 높였나
게임용 그래픽 칩이 어떻게 현대 AI의 핵심 인프라가 되었는지, NVIDIA CUDA의 탄생부터 GPU 클러스터까지 그 역사적 전환을 살펴봅니다.
[시리즈][AI로 가는 길 05] 인프라의 혁명: 분산 컴퓨팅이 AI의 '뇌세포'를 수조 개로 늘린 방법
데이터가 모였다면 이제는 처리할 능력이 필요합니다. 현대 AI 모델의 기반이 된 분산 컴퓨팅과 클라우드 혁명의 역사를 살펴봅니다.
[시리즈]AI로 가는 길 04: 월드 와이드 웹과 정보의 민주화, 집단 지성에서 인공지능으로
인터넷과 웹의 폭발적 성장이 어떻게 현대 AI 학습의 토양인 '빅데이터'를 형성했는지 분석합니다.