LLM-as-a-Judge
더 강력한 LLM이 다른 모델이나 에이전트의 출력을 평가 기준(루브릭)에 따라 점수화하는 평가 방법론
#LLM-as-a-Judge#LLM 평가자#AI 평가#Evals#루브릭#자동 평가
LLM-as-a-Judge란?
LLM-as-a-Judge는 GPT-4o나 Claude 같은 강력한 언어 모델이 다른 모델 또는 에이전트의 출력을 미리 정의된 평가 기준(루브릭)에 따라 점수화하는 평가 방법론입니다. 사람이 직접 검토하는 대신 모델이 평가자 역할을 합니다.
왜 쓰이나요?
AI 에이전트 출력은 고정된 정답이 없는 경우가 많습니다. 키워드 매칭 같은 단순 방법으로는 품질을 측정하기 어렵습니다. LLM-as-a-Judge는 유연한 기준으로 열린 형태의 출력을 평가할 수 있어, 대규모 자동 평가에 효과적입니다.
주의사항
- 편향 가능성: 평가 모델이 자신의 스타일에 유사한 출력에 높은 점수를 줄 수 있습니다.
- 루브릭 품질: 평가 기준이 명확하지 않으면 점수의 신뢰도가 낮아집니다.
- 비용: 평가마다 LLM 호출이 필요해 규모가 커지면 비용이 증가합니다.