자연어 처리 (NLP)

BigLaw Bench

법률 업무 시나리오에서 모델의 문서 해석과 추론 정확도를 평가하는 벤치마크

#BigLaw Bench#법률 벤치마크#Legal benchmark#법률 추론

BigLaw Bench란?

BigLaw Bench는 계약서 검토, 조항 해석, 법률 질의 응답 같은 법률 실무 과제에서 모델의 정확도와 일관성을 평가하는 벤치마크입니다.

무엇을 측정하나요?

문맥 해석 정확도, 논리적 정합성, 근거 제시 일관성 같은 요소를 중점적으로 봅니다. 일반 상식형 질문보다 전문 도메인 추론 역량이 더 크게 반영됩니다.

왜 중요한가요?

법률·컴플라이언스 업무는 작은 오류가 큰 리스크로 이어질 수 있습니다. BigLaw Bench는 이런 고정밀 검토형 과제에 모델을 투입할지 판단할 때 참고 지표가 됩니다.

관련 용어

자연어 처리 (NLP)

어텐션 (Attention)

입력 데이터에서 중요한 부분에 집중하는 딥러닝 메커니즘

자연어 처리 (NLP)

에이전트 (AI Agent)

스스로 판단하고 도구를 활용해 작업을 수행하는 자율 AI

자연어 처리 (NLP)

연쇄 추론 유도 (Chain-of-Thought Elicitation)

모델이 답변 전 사고 과정을 단계별로 드러내도록 유도하는 프롬프트 기법

자연어 처리 (NLP)

임베딩 (Embedding)

텍스트나 이미지를 숫자 벡터로 변환하는 표현 기술

자연어 처리 (NLP)

재랭킹 (Reranking)

초기 검색 결과를 다시 평가해 더 관련도 높은 순서로 재정렬하는 후처리 단계

자연어 처리 (NLP)

정보 유실 현상 (Lost in the Middle)

긴 컨텍스트에서 문서 중간 정보가 상대적으로 덜 활용되어 답변 정확도가 떨어지는 현상