SWE-bench
실제 GitHub 이슈를 기반으로 코드 수정 능력을 평가하는 소프트웨어 엔지니어링 벤치마크
#SWE-bench#SWE-Bench#SWE-bench Verified#SWE-Bench Pro#코딩 벤치마크
SWE-bench란?
SWE-bench는 실제 오픈소스 저장소의 이슈를 모델이 해결할 수 있는지 측정하는 코딩 벤치마크입니다. 단순 문제풀이가 아니라, 코드베이스를 이해하고 패치를 만들고 테스트를 통과해야 점수를 얻습니다.
어떻게 측정하나요?
일반적으로 주어진 이슈 설명을 바탕으로 모델이 생성한 패치를 적용하고, 테스트 통과 여부로 성공을 판단합니다. 그래서 문법 지식보다 실제 소프트웨어 수정 능력을 더 잘 반영합니다.
왜 중요한가요?
실무 코딩 자동화 도입 시 "정답처럼 보이는 코드"보다 "실제로 동작하는 수정"이 중요합니다. SWE-bench 점수는 이 차이를 비교하는 데 유용합니다.
관련 용어
자연어 처리 (NLP)
어텐션 (Attention)
입력 데이터에서 중요한 부분에 집중하는 딥러닝 메커니즘
자연어 처리 (NLP)
에이전트 (AI Agent)
스스로 판단하고 도구를 활용해 작업을 수행하는 자율 AI
자연어 처리 (NLP)
연쇄 추론 유도 (Chain-of-Thought Elicitation)
모델이 답변 전 사고 과정을 단계별로 드러내도록 유도하는 프롬프트 기법
자연어 처리 (NLP)
임베딩 (Embedding)
텍스트나 이미지를 숫자 벡터로 변환하는 표현 기술
자연어 처리 (NLP)
재랭킹 (Reranking)
초기 검색 결과를 다시 평가해 더 관련도 높은 순서로 재정렬하는 후처리 단계
자연어 처리 (NLP)
정보 유실 현상 (Lost in the Middle)
긴 컨텍스트에서 문서 중간 정보가 상대적으로 덜 활용되어 답변 정확도가 떨어지는 현상