자연어 처리 (NLP)

SWE-bench

실제 GitHub 이슈를 기반으로 코드 수정 능력을 평가하는 소프트웨어 엔지니어링 벤치마크

#SWE-bench#SWE-Bench#SWE-bench Verified#SWE-Bench Pro#코딩 벤치마크

SWE-bench란?

SWE-bench는 실제 오픈소스 저장소의 이슈를 모델이 해결할 수 있는지 측정하는 코딩 벤치마크입니다. 단순 문제풀이가 아니라, 코드베이스를 이해하고 패치를 만들고 테스트를 통과해야 점수를 얻습니다.

일반적으로 주어진 이슈 설명을 바탕으로 모델이 생성한 패치를 적용하고, 테스트 통과 여부로 성공을 판단합니다. 그래서 문법 지식보다 실제 소프트웨어 수정 능력을 더 잘 반영합니다.

실무 코딩 자동화 도입 시 "정답처럼 보이는 코드"보다 "실제로 동작하는 수정"이 중요합니다. SWE-bench 점수는 이 차이를 비교하는 데 유용합니다.