LLM-as-a-Judge

편향 가능성: 평가 모델이 자신의 스타일에 유사한 출력에 높은 점수를 줄 수 있습니다.
루브릭 품질: 평가 기준이 명확하지 않으면 점수의 신뢰도가 낮아집니다.
비용: 평가마다 LLM 호출이 필요해 규모가 커지면 비용이 증가합니다.

LLM-as-a-Judge란?

LLM-as-a-Judge는 GPT-4o나 Claude 같은 강력한 언어 모델이 다른 모델 또는 에이전트의 출력을 미리 정의된 평가 기준(루브릭)에 따라 점수화하는 평가 방법론입니다. 사람이 직접 검토하는 대신 모델이 평가자 역할을 합니다.

AI 에이전트 출력은 고정된 정답이 없는 경우가 많습니다. 키워드 매칭 같은 단순 방법으로는 품질을 측정하기 어렵습니다. LLM-as-a-Judge는 유연한 기준으로 열린 형태의 출력을 평가할 수 있어, 대규모 자동 평가에 효과적입니다.