본문으로 건너뛰기
자연어 처리 (NLP)

GDPval

경제적 가치를 만드는 실제 업무에서 모델 성능을 평가하는 OpenAI의 벤치마크

#GDPval#OpenAI 벤치마크#업무 자동화 평가#경제적 가치 벤치마크

GDPval이란?

GDPval은 OpenAI가 경제적으로 가치 있는 직무 작업에서 모델 성능을 측정하는 벤치마크입니다. 일반적인 코딩·QA 벤치마크와 달리, 실제 직장에서 수행하는 업무 결과물에 더 가까운 작업을 평가 대상으로 삼습니다.

무엇을 평가하나요?

문서 작성·데이터 분석·소프트웨어 운영·여러 도구를 오가는 다단계 작업처럼, 결과물이 직접 비즈니스 가치로 환산될 수 있는 시나리오를 다룹니다.

왜 등장했나요?

기존 벤치마크가 *"문제를 푸는 능력"*에 집중했다면, GDPval은 *"실제 업무를 끝내는 능력"*에 가까운 신호를 제공하기 위해 도입됐습니다. GPT-5.5 발표에서 84.9%가 강조되며, 에이전트형 워크로드 평가의 새로운 축으로 자리 잡고 있습니다.

관련 용어