본문으로 건너뛰기
목록으로 돌아가기
AI 인프라/모델 최적화·작성: Trensee 편집팀·업데이트: 2026-03-25

[AI로 가는 길 08] 트랜스포머 혁명: "Attention Is All You Need" — 현대 LLM의 출발점

2017년 구글이 발표한 논문 하나가 AI의 역사를 바꿨다. RNN·LSTM의 한계를 뛰어넘은 트랜스포머 아키텍처, 그리고 그 핵심인 셀프 어텐션 메커니즘 — 오늘날 ChatGPT·Claude·Gemini가 존재하는 수학적 이유를 직관적으로 풀어봅니다.

AI 보조 작성 · 편집팀 검수

이 블로그 콘텐츠는 AI 보조 도구를 활용해 초안/구조화를 수행할 수 있으며, Trensee 편집팀 검수 후 발행됩니다.

핵심 요약: 07편에서 딥러닝역전파경사하강법으로 어떻게 학습하는지 살펴보았습니다. 이번 편에서는 그 딥러닝을 '언어' 처리에 완전히 새롭게 적용한 트랜스포머 아키텍처를 다룹니다. 2017년 구글 연구팀의 논문 "Attention Is All You Need"는 AI 역사에서 가장 영향력 있는 논문 중 하나로 꼽힙니다. 수학 없이, 직관으로만 이해해 봅니다.


이번 편의 질문

지난 07편에서 우리는 딥러닝의 학습 원리 — 역전파와 경사하강법 — 를 살펴보았습니다. 신경망이 수조 번의 계산으로 스스로 오차를 줄여가는 과정이었습니다.

이번 편에서 던지는 핵심 질문은 세 가지입니다.

  1. RNN과 LSTM은 왜 한계에 부딪혔는가? 언어 모델은 왜 오랫동안 긴 문장을 이해하지 못했나.
  2. 어텐션이란 무엇인가? AI가 "중요한 단어에 집중한다"는 것의 수학적 실체는 무엇인가.
  3. 트랜스포머는 어떻게 RNN을 대체했는가? 그리고 왜 ChatGPT, Claude, Gemini가 모두 트랜스포머인가.

1. 트랜스포머 이전의 세계: RNN과 LSTM

순환 신경망(RNN)이란 무엇인가?

딥러닝이 이미지 인식에서 혁명을 일으키던 시대, 언어 처리 분야는 다른 종류의 문제를 가지고 있었습니다.

이미지는 고정된 크기의 입력입니다. 그러나 언어는 다릅니다. "AI가 발전했다"는 4개 토큰이고, "인공지능 기술이 지난 10년 동안 눈부시게 발전했다"는 10개 토큰입니다. 길이가 가변적입니다.

이 문제를 해결한 것이 **RNN(Recurrent Neural Network, 순환 신경망)**입니다.

RNN의 아이디어는 간단합니다. 이전 상태의 정보를 다음 단계로 전달합니다.

"나는" → [RNN] → "좋아" → [RNN] → "AI를" → [RNN] → "공부한다"
           ↑________________↑________________↑
              (이전 상태 전달)

각 단어를 처리할 때 이전 단어들에서 전달된 "기억"을 함께 사용합니다. 이론적으로는 모든 이전 단어를 기억합니다.

RNN은 왜 긴 문장을 기억하지 못하는가?

그러나 현실에서 RNN은 치명적 한계를 보였습니다. 바로 **장기 의존성 문제(Long-Term Dependency Problem)**입니다.

예를 들어 보겠습니다.

"저는 한국에서 태어났습니다. 어릴 때부터 프로그래밍을 좋아했고, 대학에서 컴퓨터 공학을 전공했습니다. 그래서 저는 ___ 를 잘 합니다."

빈칸에 들어갈 말은 "한국어"와 "프로그래밍" 중 어느 쪽일까요? 이 문장에서 빈칸과 가장 관련 있는 정보("한국", "프로그래밍")는 멀리 앞에 있습니다.

RNN은 정보를 순차적으로 전달하다 보니, 거리가 멀어질수록 정보가 희석됩니다. 이것을 **Vanishing Gradient(그래디언트 소실)**라고 합니다. 역전파 과정에서 멀리 있는 단어에 대한 그래디언트가 0에 가까워져, 그 단어에서 배우는 것이 거의 없어집니다.

LSTM은 어떻게 RNN의 한계를 극복했는가?

1997년, Hochreiter와 Schmidhuber는 **LSTM(Long Short-Term Memory)**으로 이 문제를 부분적으로 해결했습니다.

LSTM의 핵심 아이디어는 **게이트(Gate)**입니다. 세 종류의 게이트가 정보 흐름을 제어합니다.

게이트 역할
망각 게이트 이전 기억 중 무엇을 버릴지 결정
입력 게이트 새 정보 중 무엇을 기억에 추가할지 결정
출력 게이트 현재 기억 중 무엇을 출력으로 내보낼지 결정

LSTM은 RNN의 한계를 상당히 개선했습니다. 2010년대 초반 구글 번역, 음성 인식, 문장 감정 분석에 활발히 사용됐습니다.

그러나 LSTM에도 한계가 있었다

LSTM이 해결하지 못한 두 가지 문제가 있었습니다.

  1. 병렬화 불가능: RNN과 LSTM은 순차 처리 구조입니다. 문장의 첫 단어를 처리해야 두 번째 단어를 처리할 수 있습니다. GPU의 병렬 처리 능력을 활용할 수 없었습니다.

  2. 여전히 긴 거리의 의존성에 한계: LSTM은 개선했지만, 수백 개 이상의 토큰 거리에서는 여전히 성능이 저하됐습니다.

2017년 구글 Brain 팀은 이 두 문제를 완전히 다른 방식으로 해결합니다.


2. 어텐션이란 무엇인가?

"Attention Is All You Need" 논문의 핵심 아이디어를 한 문장으로 요약하면 이렇습니다.

"순차적으로 처리하는 대신, 모든 단어가 모든 단어를 동시에 바라본다."

어텐션 메커니즘은 어떻게 단어 간 관계를 파악하는가?

번역 작업을 예로 들어보겠습니다. "I love AI"를 한국어로 번역할 때, "AI"라는 단어를 번역하기 위해 문장 전체를 동시에 참조합니다.

어텐션 메커니즘은 각 단어 쌍의 "관련성 점수"를 계산합니다.

"AI"가 번역될 때 각 단어를 얼마나 참조하는가?
I    → 0.1 (작은 관련성)
love → 0.2 (중간 관련성)
AI   → 0.7 (자기 자신, 가장 직접적)

이 점수를 바탕으로, 각 단어의 표현이 전체 문장 맥락에 맞게 가중 평균됩니다.

Query, Key, Value: 어텐션의 3요소

조금 더 정확히 설명하면, 어텐션은 세 가지 벡터를 사용합니다. 도서관 검색 시스템으로 비유할 수 있습니다.

  • Query (검색어): 내가 찾고 싶은 것 ("AI와 관련된 정보")
  • Key (색인): 각 책의 제목·태그 ("딥러닝", "머신러닝", "AI")
  • Value (내용): 각 책의 실제 내용

Query와 Key의 유사도를 계산해 관련성 점수를 만들고, 그 점수로 Value를 가중 평균합니다. 관련성이 높은 단어의 정보를 더 많이 가져오는 방식입니다.

셀프 어텐션은 기존 방식과 어떻게 다른가?

트랜스포머의 특별한 점은 셀프 어텐션입니다. 문장 내 모든 단어가 서로를 Query, Key, Value로 사용합니다. 각 단어가 문장 전체를 동시에 참조해 자신의 표현을 업데이트합니다.

이것이 LSTM과의 결정적 차이입니다. LSTM은 앞에서부터 순차적으로 기억을 전달했습니다. 셀프 어텐션은 모든 단어 쌍의 관계를 한 번에 병렬로 계산합니다.


3. 트랜스포머 아키텍처 전체 구조

트랜스포머의 인코더-디코더 구조는 어떻게 작동하는가?

"Attention Is All You Need" 논문의 원래 아키텍처는 번역을 위한 인코더-디코더 구조입니다.

입력 문장 → [인코더 스택] → 표현 벡터 → [디코더 스택] → 출력 문장

인코더: 입력 문장을 이해하는 역할. 셀프 어텐션으로 각 단어의 맥락 표현을 생성합니다.

디코더: 출력 문장을 생성하는 역할. 이미 생성한 단어와 인코더 출력을 동시에 참조합니다.

멀티헤드 어텐션: 여러 관점으로 동시에

트랜스포머는 **멀티헤드 어텐션(Multi-Head Attention)**을 사용합니다. 하나의 어텐션 대신 여러 개의 어텐션 헤드를 병렬로 실행합니다.

예를 들어, "그녀가 그녀의 책을 잃어버렸다"에서 "그녀"가 어느 "그녀"를 가리키는지 파악하는 헤드와, 동사-목적어 관계를 파악하는 헤드가 동시에 작동합니다. 여러 관점의 관계를 동시에 포착하는 것입니다.

포지셔널 인코딩: 순서를 기억하는 방법

셀프 어텐션은 모든 단어를 동시에 처리하기 때문에, 단어의 순서 정보가 자동으로 포함되지 않습니다. "I love AI"와 "AI love I"가 같은 것으로 처리될 위험이 있습니다.

이를 해결하기 위해 각 토큰의 위치 정보를 **포지셔널 인코딩(Positional Encoding)**으로 추가합니다. 위치 정보가 담긴 벡터를 토큰 벡터에 더하는 방식입니다.


4. 왜 트랜스포머가 모든 것을 바꿨는가?

왜 트랜스포머는 GPU의 잠재력을 완전히 해방시켰는가?

LSTM의 순차 처리는 GPU의 병렬 처리 능력을 활용하지 못했습니다. 트랜스포머의 셀프 어텐션은 모든 단어 쌍을 병렬로 계산합니다.

06편에서 살펴본 GPU 혁명이 딥러닝을 가능하게 했다면, 트랜스포머는 그 GPU를 언어 처리에서도 완전히 활용할 수 있게 만들었습니다.

스케일링: 크게 만들수록 좋아진다

트랜스포머의 가장 놀라운 특성은 **스케일링 법칙(Scaling Laws)**입니다. 모델 크기와 훈련 데이터를 늘릴수록 거의 선형적으로 성능이 향상됩니다.

이 특성 때문에 빅테크가 수천억 원을 GPU에 투자하는 것이 합리적이 됐습니다. 더 많은 컴퓨팅, 더 많은 데이터 = 더 나은 모델. 이 단순한 법칙이 현재 AI 군비 경쟁의 기반입니다.


5. 트랜스포머에서 GPT, Claude, Gemini로

GPT 계열: 디코더만 사용

OpenAI의 GPT 시리즈는 트랜스포머의 디코더 부분만 사용합니다. 텍스트 생성에 특화된 구조입니다. GPT-1(2018)에서 GPT-3(2020), 그리고 현재의 GPT-5까지 이 원칙은 동일합니다.

BERT와 인코더 계열: 이해에 특화

Google의 BERT는 인코더 부분만 사용합니다. 텍스트를 생성하는 것이 아니라 이해하는 것에 특화됐습니다. 검색, 분류, 질문 답변에 활용됩니다.

현대 LLM: 스케일된 트랜스포머

Claude, Gemini, GPT-4/5는 모두 트랜스포머의 변형입니다. 핵심 아이디어는 2017년 논문 그대로이지만, 수십 개의 세부 개선이 추가됐습니다.

  • Flash Attention: 어텐션 계산의 메모리 효율화
  • Rotary Positional Encoding (RoPE): 더 긴 컨텍스트를 처리하는 위치 인코딩
  • MoE (Mixture of Experts): 효율적 확장을 위한 희소 활성화

모두 "Attention Is All You Need"의 후손입니다.


다음 편 예고

08편에서는 트랜스포머가 어떻게 작동하는지 살펴보았습니다. 다음 09편에서는 사전 학습(Pre-training)과 미세 조정(Fine-tuning) — ChatGPT처럼 대화를 잘하는 LLM을 만들기 위해 트랜스포머를 어떻게 훈련시키는지 알아봅니다.

특히 RLHF(인간 피드백 강화학습)가 왜 ChatGPT를 "단순히 텍스트를 예측하는 모델"에서 "사람처럼 대화하는 AI"로 바꿔놓았는지 다룹니다.


핵심 실행 요약

개념 이전 방식 트랜스포머 방식
처리 방식 순차 처리 (RNN/LSTM) 병렬 처리 (셀프 어텐션)
기억 방식 순차 상태 전달 전체 토큰 직접 참조
GPU 활용 제한적 완전 활용
스케일링 비선형적, 불안정 거의 선형적, 예측 가능
현재 계승 거의 없음 ChatGPT·Claude·Gemini 전체

자주 묻는 질문 (FAQ)

Q. 트랜스포머를 만든 사람들은 누구인가?

2017년 Google Brain과 Google Research, 토론토 대학의 연구자 8명이 공동 저술했습니다. 논문의 첫 번째 저자인 Ashish Vaswani를 포함한 여러 저자가 이후 OpenAI, Adept AI 등에 합류해 현재 AI 산업을 이끌고 있습니다.

Q. 어텐션 계산은 왜 느린가?

N개의 토큰이 있을 때 셀프 어텐션은 N×N개의 쌍을 계산합니다. 토큰 수가 2배 늘면 계산량은 4배 늘어납니다. 이것이 컨텍스트 창(Context Window)에 제한이 있는 이유이며, Flash Attention 같은 기술이 이 문제를 해결하는 데 핵심 역할을 합니다.

Q. RNN과 LSTM은 완전히 사라졌는가?

프론티어 LLM 분야에서는 사실상 트랜스포머로 대체됐습니다. 다만 제한된 메모리와 컴퓨팅 환경(IoT, 엣지 기기)에서는 LSTM이 여전히 사용됩니다.

Q. 트랜스포머의 어텐션 헤드가 많으면 무조건 좋다고 할 수 있는가?

그렇지 않습니다. 헤드 수는 모델 크기에 비례해 최적값이 있습니다. 불필요하게 많은 헤드는 계산 비용만 늘리고 성능 향상은 없을 수 있습니다. 현대 모델은 수십에서 수백 개의 헤드를 사용합니다.

Q. "Attention Is All You Need" 논문은 번역을 위해 만든 것인데, 왜 언어 생성에서도 잘 작동하나?

번역은 특수한 Seq2Seq 과제이지만, 트랜스포머의 핵심 구조는 범용적입니다. 언어 생성(GPT 계열), 이해(BERT 계열), 코드 생성, 이미지 처리까지 모두 동일한 원리로 적용할 수 있음이 밝혀졌습니다.

Q. 트랜스포머 이후 더 나은 아키텍처가 나오지 않았나?

Mamba(상태 공간 모델), RWKV(RNN+트랜스포머 하이브리드) 등 대안이 제안됐습니다. 일부 효율성 개선을 보였지만, 프론티어 LLM 분야에서 트랜스포머를 완전히 대체하지는 못했습니다. 2026년 현재도 트랜스포머가 표준입니다.

Q. 트랜스포머를 이해하면 실제 개발에서 어떤 도움이 되나?

컨텍스트 창 크기의 의미, 왜 긴 프롬프트가 비용이 더 비싼지, 왜 "가장 관련 있는 정보를 앞에 두는" 프롬프트 전략이 효과적인지를 원리 수준에서 이해할 수 있습니다. 이는 더 나은 프롬프트 설계와 RAG 아키텍처 결정에 도움이 됩니다.

Q. "Attention Is All You Need" 논문을 직접 읽어볼 수 있나?

arXiv에서 무료로 읽을 수 있습니다. 수식이 많지만, Jay Alammar의 "The Illustrated Transformer"를 함께 참고하면 시각적으로 이해하기 쉽습니다.


함께 읽으면 좋은 글

업데이트 기준

  • 최초 작성: 2026-03-25
  • 데이터 기준: Vaswani et al. 2017 원논문, GPT-3·GPT-4·Claude·Gemini 기술 문서
  • 다음 업데이트 예정: 09편 — 사전 학습과 RLHF (2026-04-01 예정)

참고 링크

분석 근거

  • 원논문 기반: Vaswani et al. "Attention Is All You Need" (NeurIPS 2017). Google Brain·DeepMind·University of Toronto 공동 연구. Google Scholar 인용 수 10만+ (2026년 기준).
  • 연속성 검증: Cho et al. "Learning Phrase Representations using RNN Encoder-Decoder" (2014), Hochreiter & Schmidhuber "Long Short-Term Memory" (1997)와의 비교 분석.
  • 현대 LLM 연결: GPT-3(2020), GPT-4(2023), Claude 3(2024), Gemini 1.5(2024)의 트랜스포머 아키텍처 계승 구조 분석.

핵심 주장과 근거

외부 인용 링크

이 글이 도움이 됐나요?

이 글에 대해 궁금한 점이 있으신가요?

질문하기에서 로그인 후 익명으로 질문해 보세요.

질문하기

관련 포스트