MoE (혼합 전문가)
입력마다 일부 전문가만 활성화해 성능과 효율을 동시에 노리는 모델 아키텍처
#MoE#혼합 전문가#Mixture of Experts#LLM#추론 효율
MoE란?
MoE(Mixture of Experts)는 하나의 거대한 모델을 항상 전부 쓰지 않고, 입력에 맞는 일부 전문가(Expert)만 선택적으로 활성화하는 구조입니다. 이 방식은 모델 용량을 크게 유지하면서도 실제 추론 비용을 줄이는 데 유리합니다.
왜 중요한가요?
고성능 LLM은 품질이 좋아질수록 추론 비용이 빠르게 증가합니다. MoE는 "필요한 부분만 계산"하는 방식으로 비용 대비 성능을 개선할 수 있어, 대규모 서비스 운영에서 자주 채택됩니다.
실무 체크 포인트
- 활성 파라미터 규모: 전체 파라미터보다 실제 활성 파라미터가 비용에 더 직접적으로 영향을 줍니다.
- 라우팅 안정성: 어떤 전문가가 선택되는지에 따라 출력 품질 편차가 생길 수 있어 평가가 필요합니다.
- 인프라 최적화: 분산 추론, 메모리 배치, 배치 전략이 성능과 지연시간을 크게 좌우합니다.
관련 용어
자연어 처리 (NLP)
에이전트 (AI Agent)
스스로 판단하고 도구를 활용해 작업을 수행하는 자율 AI
자연어 처리 (NLP)
컨텍스트 윈도우 (Context Window)
AI 모델이 한 번에 읽고 처리할 수 있는 입력 토큰의 최대 범위
자연어 처리 (NLP)
토큰 (Token)
AI가 텍스트를 처리하는 최소 단위
자연어 처리 (NLP)
파인튜닝 (Fine-tuning)
사전 학습된 AI 모델을 특정 목적에 맞게 추가 학습시키는 기술
자연어 처리 (NLP)
프롬프트 (Prompt)
AI 모델에게 원하는 결과를 얻기 위해 입력하는 지시문
자연어 처리 (NLP)
할루시네이션 (Hallucination)
AI가 사실이 아닌 정보를 그럴듯하게 생성하는 현상