LoRA
대규모 AI 모델을 적은 비용으로 미세 조정하는 경량화 기법
#LoRA#파인튜닝#경량화
LoRA란?
LoRA(Low-Rank Adaptation)는 거대한 AI 모델을 적은 자원으로 효율적으로 미세 조정(파인튜닝)하는 기법입니다. 옷 수선에 비유하면 이해하기 쉽습니다. 기성복을 사서 전체를 다시 만들지 않고, 소매 길이나 허리 부분만 살짝 수선하면 나에게 딱 맞는 옷이 되죠. LoRA도 마찬가지로, 수십억 개의 전체 파라미터를 건드리지 않고 핵심적인 소수의 파라미터만 조정합니다.
어떻게 작동하나요?
일반적인 파인튜닝은 모델의 모든 가중치를 업데이트하므로 막대한 GPU 메모리와 시간이 필요합니다. LoRA는 원래 모델의 가중치를 **동결(고정)**한 상태에서, 작은 크기의 행렬 두 개를 추가로 학습합니다. 이 작은 행렬들이 원래 모델의 동작을 미세하게 조정하는 역할을 합니다. 전체 파라미터의 1% 미만만 학습하면서도 전체 파인튜닝에 근접한 성능을 달성할 수 있습니다.
왜 중요한가요?
LoRA 덕분에 고성능 GPU 클러스터 없이도 개인이나 중소기업이 자체 목적에 맞게 LLM을 맞춤 조정할 수 있게 되었습니다. 일반 소비자용 GPU에서도 학습이 가능하며, 학습된 LoRA 어댑터는 수십 MB 수준으로 가벼워 공유와 교체가 쉽습니다. 오픈소스 AI 생태계의 폭발적 성장을 이끈 핵심 기술입니다.
관련 용어
AI 인프라/모델 최적화
레이트 리미팅 (Rate Limiting)
짧은 시간에 과도한 요청이 몰릴 때 API 호출량을 제한하는 제어 기법
AI 인프라/모델 최적화
버텍스 AI (Vertex AI)
Google Cloud에서 제공하는 기업용 머신러닝·생성형 AI 통합 플랫폼
AI 인프라/모델 최적화
벡터 데이터베이스 (Vector DB)
AI 임베딩 벡터를 저장하고 유사도 기반으로 검색하는 전문 데이터베이스
AI 인프라/모델 최적화
에이전트 오케스트레이션 (Agent Orchestration)
여러 AI 에이전트와 도구 실행 흐름을 정책에 맞게 조정·통제하는 운영 방식
AI 인프라/모델 최적화
엣지 AI (Edge AI)
클라우드 대신 기기에서 직접 AI를 실행하는 방식
AI 인프라/모델 최적화
주권 AI (Sovereign AI)
데이터·모델·인프라 통제권을 조직이나 국가가 직접 보유하는 AI 운영 전략