Terminal-Bench
터미널 기반 다단계 작업 수행 능력을 평가하는 에이전트형 벤치마크
#Terminal-Bench#terminal bench#에이전트 벤치마크#터미널 작업 평가
Terminal-Bench란?
Terminal-Bench는 모델이 터미널 환경에서 명령 실행, 파일 조작, 오류 복구 같은 연속 작업을 얼마나 안정적으로 수행하는지 평가하는 벤치마크입니다.
무엇을 보나요?
단일 답변 품질보다 작업 완료율, 중간 단계 오류 처리, 지시 이탈 여부를 함께 봅니다. 즉 "한 번의 좋은 답변"보다 "끝까지 완료하는 실행력"을 측정합니다.
왜 중요한가요?
코딩 에이전트나 운영 자동화에서는 실수 없는 연속 실행이 핵심입니다. Terminal-Bench는 이런 에이전트형 성능을 비교할 때 자주 활용됩니다.
관련 용어
자연어 처리 (NLP)
어텐션 (Attention)
입력 데이터에서 중요한 부분에 집중하는 딥러닝 메커니즘
자연어 처리 (NLP)
에이전트 (AI Agent)
스스로 판단하고 도구를 활용해 작업을 수행하는 자율 AI
자연어 처리 (NLP)
연쇄 추론 유도 (Chain-of-Thought Elicitation)
모델이 답변 전 사고 과정을 단계별로 드러내도록 유도하는 프롬프트 기법
자연어 처리 (NLP)
임베딩 (Embedding)
텍스트나 이미지를 숫자 벡터로 변환하는 표현 기술
자연어 처리 (NLP)
재랭킹 (Reranking)
초기 검색 결과를 다시 평가해 더 관련도 높은 순서로 재정렬하는 후처리 단계
자연어 처리 (NLP)
정보 유실 현상 (Lost in the Middle)
긴 컨텍스트에서 문서 중간 정보가 상대적으로 덜 활용되어 답변 정확도가 떨어지는 현상