GDPval
경제적 가치를 만드는 실제 업무에서 모델 성능을 평가하는 OpenAI의 벤치마크
#GDPval#OpenAI 벤치마크#업무 자동화 평가#경제적 가치 벤치마크
GDPval이란?
GDPval은 OpenAI가 경제적으로 가치 있는 직무 작업에서 모델 성능을 측정하는 벤치마크입니다. 일반적인 코딩·QA 벤치마크와 달리, 실제 직장에서 수행하는 업무 결과물에 더 가까운 작업을 평가 대상으로 삼습니다.
무엇을 평가하나요?
문서 작성·데이터 분석·소프트웨어 운영·여러 도구를 오가는 다단계 작업처럼, 결과물이 직접 비즈니스 가치로 환산될 수 있는 시나리오를 다룹니다.
왜 등장했나요?
기존 벤치마크가 *"문제를 푸는 능력"*에 집중했다면, GDPval은 *"실제 업무를 끝내는 능력"*에 가까운 신호를 제공하기 위해 도입됐습니다. GPT-5.5 발표에서 84.9%가 강조되며, 에이전트형 워크로드 평가의 새로운 축으로 자리 잡고 있습니다.
관련 용어
자연어 처리 (NLP)
어텐션 (Attention)
입력 데이터에서 중요한 부분에 집중하는 딥러닝 메커니즘
자연어 처리 (NLP)
에이전트 (AI Agent)
스스로 판단하고 도구를 활용해 작업을 수행하는 자율 AI
자연어 처리 (NLP)
연쇄 추론 유도 (Chain-of-Thought Elicitation)
모델이 답변 전 사고 과정을 단계별로 드러내도록 유도하는 프롬프트 기법
자연어 처리 (NLP)
임베딩 (Embedding)
텍스트나 이미지를 숫자 벡터로 변환하는 표현 기술
자연어 처리 (NLP)
재랭킹 (Reranking)
초기 검색 결과를 다시 평가해 더 관련도 높은 순서로 재정렬하는 후처리 단계
자연어 처리 (NLP)
정보 유실 현상 (Lost in the Middle)
긴 컨텍스트에서 문서 중간 정보가 상대적으로 덜 활용되어 답변 정확도가 떨어지는 현상