본문으로 건너뛰기
목록으로 돌아가기
자연어 처리 (NLP)

트랜스포머 (Transformer)

현대 AI의 핵심 아키텍처로, 어텐션 메커니즘 기반의 딥러닝 모델 구조

#트랜스포머#어텐션#딥러닝

트랜스포머란?

트랜스포머(Transformer)는 2017년 구글의 논문 "Attention Is All You Need"에서 제안된 딥러닝 모델 구조입니다. GPT, BERT, Claude 등 오늘날 거의 모든 대형 AI 모델의 기반이 되는 핵심 아키텍처입니다.

비유하자면, 트랜스포머는 동시에 여러 부분을 살펴볼 수 있는 독해 천재와 같습니다. 이전의 RNN 모델이 책을 한 글자씩 순서대로 읽는 방식이라면, 트랜스포머는 문장 전체를 한눈에 보면서 각 단어 사이의 관계를 파악합니다.

어떻게 작동하나요?

트랜스포머의 핵심은 셀프 어텐션(Self-Attention) 메커니즘입니다.

"나는 은행에서 돈을 찾았다"라는 문장에서 "은행"의 의미를 파악하려면 "돈"이라는 단어와의 관계를 봐야 합니다. 트랜스포머는 문장 속 모든 단어 쌍의 관련도를 동시에 계산하여 문맥을 정확하게 이해합니다.

또한 병렬 처리가 가능하여 GPU를 효율적으로 활용할 수 있고, 이 덕분에 수십억 개의 매개변수를 가진 초대형 모델 학습이 현실적으로 가능해졌습니다.

트랜스포머의 구조

  • 인코더(Encoder): 입력 텍스트를 이해하는 부분 (BERT가 대표적)
  • 디코더(Decoder): 텍스트를 생성하는 부분 (GPT가 대표적)
  • 인코더-디코더: 번역처럼 입력을 이해하고 출력을 생성하는 구조 (T5가 대표적)

트랜스포머의 등장은 AI 분야에서 가장 중요한 전환점 중 하나로, 현재의 생성형 AI 혁명을 이끈 기술적 토대입니다.

관련 용어