본문으로 건너뛰기
목록으로 돌아가기
자연어 처리 (NLP)

청크 (Chunk)

긴 문서를 검색과 생성 품질을 위해 의미 단위로 나눈 텍스트 조각

#청크#청킹#Chunk#RAG

청크란?

청크(Chunk)는 긴 문서를 일정한 단위로 잘라 만든 텍스트 조각입니다.
RAG 시스템에서는 문서 전체를 한 번에 넣기보다, 이렇게 나눈 조각 단위로 저장하고 검색합니다.

쉽게 말하면, 큰 보고서를 "문단 카드"로 나눠서 필요한 카드만 꺼내 쓰는 방식입니다.

어떻게 작동하나요?

일반적인 흐름은 다음과 같습니다.

  1. 원문 문서를 길이 기준(예: 토큰 수)과 의미 기준(문단/섹션)으로 분할합니다.
  2. 각 청크를 임베딩 벡터로 변환해 벡터 DB에 저장합니다.
  3. 질문이 들어오면 관련 청크를 검색해 LLM 컨텍스트에 붙입니다.

실무에서는 청크 크기와 겹침(Overlap) 설정이 중요합니다.
너무 작으면 문맥이 끊기고, 너무 크면 검색 정확도와 비용이 동시에 악화될 수 있습니다.

왜 중요한가요?

청크 설계는 RAG 성능에 직접 영향을 주는 핵심 요소입니다.

  • 검색 정확도(관련 정보가 제대로 잡히는지)
  • 답변 근거성(문맥이 충분한지)
  • 비용/지연시간(불필요한 토큰 소비를 줄이는지)

즉, 모델 선택만큼이나 청킹 전략이 결과 품질을 좌우합니다.

관련 용어