트랜스포머 (Transformer)
현대 AI의 핵심 아키텍처로, 어텐션 메커니즘 기반의 딥러닝 모델 구조
#트랜스포머#어텐션#딥러닝
트랜스포머란?
트랜스포머(Transformer)는 2017년 구글의 논문 "Attention Is All You Need"에서 제안된 딥러닝 모델 구조입니다. GPT, BERT, Claude 등 오늘날 거의 모든 대형 AI 모델의 기반이 되는 핵심 아키텍처입니다.
비유하자면, 트랜스포머는 동시에 여러 부분을 살펴볼 수 있는 독해 천재와 같습니다. 이전의 RNN 모델이 책을 한 글자씩 순서대로 읽는 방식이라면, 트랜스포머는 문장 전체를 한눈에 보면서 각 단어 사이의 관계를 파악합니다.
어떻게 작동하나요?
트랜스포머의 핵심은 셀프 어텐션(Self-Attention) 메커니즘입니다.
"나는 은행에서 돈을 찾았다"라는 문장에서 "은행"의 의미를 파악하려면 "돈"이라는 단어와의 관계를 봐야 합니다. 트랜스포머는 문장 속 모든 단어 쌍의 관련도를 동시에 계산하여 문맥을 정확하게 이해합니다.
또한 병렬 처리가 가능하여 GPU를 효율적으로 활용할 수 있고, 이 덕분에 수십억 개의 매개변수를 가진 초대형 모델 학습이 현실적으로 가능해졌습니다.
트랜스포머의 구조
- 인코더(Encoder): 입력 텍스트를 이해하는 부분 (BERT가 대표적)
- 디코더(Decoder): 텍스트를 생성하는 부분 (GPT가 대표적)
- 인코더-디코더: 번역처럼 입력을 이해하고 출력을 생성하는 구조 (T5가 대표적)
트랜스포머의 등장은 AI 분야에서 가장 중요한 전환점 중 하나로, 현재의 생성형 AI 혁명을 이끈 기술적 토대입니다.
관련 용어
자연어 처리 (NLP)
어텐션 (Attention)
입력 데이터에서 중요한 부분에 집중하는 딥러닝 메커니즘
자연어 처리 (NLP)
에이전트 (AI Agent)
스스로 판단하고 도구를 활용해 작업을 수행하는 자율 AI
자연어 처리 (NLP)
임베딩 (Embedding)
텍스트나 이미지를 숫자 벡터로 변환하는 표현 기술
자연어 처리 (NLP)
재랭킹 (Reranking)
초기 검색 결과를 다시 평가해 더 관련도 높은 순서로 재정렬하는 후처리 단계
자연어 처리 (NLP)
정보 유실 현상 (Lost in the Middle)
긴 컨텍스트에서 문서 중간 정보가 상대적으로 덜 활용되어 답변 정확도가 떨어지는 현상
자연어 처리 (NLP)
제로샷/퓨샷 (Zero-shot/Few-shot)
예시 없이 또는 소수의 예시만으로 AI가 새로운 작업을 수행하는 방법