본문으로 건너뛰기
목록으로 돌아가기
자연어 처리 (NLP)

OSWorld

GUI 기반 컴퓨터 사용 과제를 통해 모델의 실제 조작 능력을 평가하는 벤치마크

#OSWorld#컴퓨터 사용 벤치마크#GUI 벤치마크#Computer Use

OSWorld란?

OSWorld는 모델이 운영체제 화면을 이해하고 실제로 컴퓨터 작업을 수행하는 능력을 평가하는 벤치마크입니다. 클릭, 입력, 창 전환 같은 GUI 상호작용이 포함됩니다.

어떤 능력을 검증하나요?

지시 이해, 화면 상태 판단, 순서 기반 작업 실행, 실수 후 복구 같은 실제 사용 시나리오를 다룹니다. 그래서 일반 텍스트 QA 벤치마크와 성격이 다릅니다.

왜 중요한가요?

데스크톱 자동화, 업무 도우미, 컴퓨터 사용형 에이전트를 도입할 때 텍스트 성능만으로는 부족합니다. OSWorld는 실제 조작 능력을 보는 기준으로 쓰입니다.

관련 용어