본문으로 건너뛰기
목록으로 돌아가기
자연어 처리 (NLP)

MoE (혼합 전문가)

입력마다 일부 전문가만 활성화해 성능과 효율을 동시에 노리는 모델 아키텍처

#MoE#혼합 전문가#Mixture of Experts#LLM#추론 효율

MoE란?

MoE(Mixture of Experts)는 하나의 거대한 모델을 항상 전부 쓰지 않고, 입력에 맞는 일부 전문가(Expert)만 선택적으로 활성화하는 구조입니다. 이 방식은 모델 용량을 크게 유지하면서도 실제 추론 비용을 줄이는 데 유리합니다.

왜 중요한가요?

고성능 LLM은 품질이 좋아질수록 추론 비용이 빠르게 증가합니다. MoE는 "필요한 부분만 계산"하는 방식으로 비용 대비 성능을 개선할 수 있어, 대규모 서비스 운영에서 자주 채택됩니다.

실무 체크 포인트

  1. 활성 파라미터 규모: 전체 파라미터보다 실제 활성 파라미터가 비용에 더 직접적으로 영향을 줍니다.
  2. 라우팅 안정성: 어떤 전문가가 선택되는지에 따라 출력 품질 편차가 생길 수 있어 평가가 필요합니다.
  3. 인프라 최적화: 분산 추론, 메모리 배치, 배치 전략이 성능과 지연시간을 크게 좌우합니다.

관련 용어