청크 (Chunk)
긴 문서를 검색과 생성 품질을 위해 의미 단위로 나눈 텍스트 조각
#청크#청킹#Chunk#RAG
청크란?
청크(Chunk)는 긴 문서를 일정한 단위로 잘라 만든 텍스트 조각입니다.
RAG 시스템에서는 문서 전체를 한 번에 넣기보다, 이렇게 나눈 조각 단위로 저장하고 검색합니다.
쉽게 말하면, 큰 보고서를 "문단 카드"로 나눠서 필요한 카드만 꺼내 쓰는 방식입니다.
어떻게 작동하나요?
일반적인 흐름은 다음과 같습니다.
- 원문 문서를 길이 기준(예: 토큰 수)과 의미 기준(문단/섹션)으로 분할합니다.
- 각 청크를 임베딩 벡터로 변환해 벡터 DB에 저장합니다.
- 질문이 들어오면 관련 청크를 검색해 LLM 컨텍스트에 붙입니다.
실무에서는 청크 크기와 겹침(Overlap) 설정이 중요합니다.
너무 작으면 문맥이 끊기고, 너무 크면 검색 정확도와 비용이 동시에 악화될 수 있습니다.
왜 중요한가요?
청크 설계는 RAG 성능에 직접 영향을 주는 핵심 요소입니다.
- 검색 정확도(관련 정보가 제대로 잡히는지)
- 답변 근거성(문맥이 충분한지)
- 비용/지연시간(불필요한 토큰 소비를 줄이는지)
즉, 모델 선택만큼이나 청킹 전략이 결과 품질을 좌우합니다.
관련 용어
자연어 처리 (NLP)
RAG (검색 증강 생성)
외부 지식을 검색하여 AI 응답의 정확성을 높이는 기술
자연어 처리 (NLP)
어텐션 (Attention)
입력 데이터에서 중요한 부분에 집중하는 딥러닝 메커니즘
자연어 처리 (NLP)
에이전트 (AI Agent)
스스로 판단하고 도구를 활용해 작업을 수행하는 자율 AI
자연어 처리 (NLP)
임베딩 (Embedding)
텍스트나 이미지를 숫자 벡터로 변환하는 표현 기술
자연어 처리 (NLP)
재랭킹 (Reranking)
초기 검색 결과를 다시 평가해 더 관련도 높은 순서로 재정렬하는 후처리 단계
자연어 처리 (NLP)
정보 유실 현상 (Lost in the Middle)
긴 컨텍스트에서 문서 중간 정보가 상대적으로 덜 활용되어 답변 정확도가 떨어지는 현상