본문으로 건너뛰기
목록으로 돌아가기
AI 인프라/모델 최적화

LoRA

대규모 AI 모델을 적은 비용으로 미세 조정하는 경량화 기법

#LoRA#파인튜닝#경량화

LoRA란?

LoRA(Low-Rank Adaptation)는 거대한 AI 모델을 적은 자원으로 효율적으로 미세 조정(파인튜닝)하는 기법입니다. 옷 수선에 비유하면 이해하기 쉽습니다. 기성복을 사서 전체를 다시 만들지 않고, 소매 길이나 허리 부분만 살짝 수선하면 나에게 딱 맞는 옷이 되죠. LoRA도 마찬가지로, 수십억 개의 전체 파라미터를 건드리지 않고 핵심적인 소수의 파라미터만 조정합니다.

어떻게 작동하나요?

일반적인 파인튜닝은 모델의 모든 가중치를 업데이트하므로 막대한 GPU 메모리와 시간이 필요합니다. LoRA는 원래 모델의 가중치를 **동결(고정)**한 상태에서, 작은 크기의 행렬 두 개를 추가로 학습합니다. 이 작은 행렬들이 원래 모델의 동작을 미세하게 조정하는 역할을 합니다. 전체 파라미터의 1% 미만만 학습하면서도 전체 파인튜닝에 근접한 성능을 달성할 수 있습니다.

왜 중요한가요?

LoRA 덕분에 고성능 GPU 클러스터 없이도 개인이나 중소기업이 자체 목적에 맞게 LLM을 맞춤 조정할 수 있게 되었습니다. 일반 소비자용 GPU에서도 학습이 가능하며, 학습된 LoRA 어댑터는 수십 MB 수준으로 가벼워 공유와 교체가 쉽습니다. 오픈소스 AI 생태계의 폭발적 성장을 이끈 핵심 기술입니다.

관련 용어