본문으로 건너뛰기
목록으로 돌아가기
자연어 처리 (NLP)

토큰 (Token)

AI가 텍스트를 처리하는 최소 단위

#토큰#토크나이저#LLM

토큰이란?

토큰은 AI가 텍스트를 읽고 이해할 때 사용하는 최소 단위 조각입니다. 레고 블록을 떠올려 보세요. 우리가 멋진 성을 만들 때 작은 블록 하나하나를 조립하듯, AI도 문장을 작은 토큰 조각으로 나눠서 처리합니다.

예를 들어 "인공지능이 세상을 바꾼다"라는 문장은 "인공", "지능", "이", "세상", "을", "바꾼다"처럼 여러 토큰으로 쪼개질 수 있습니다. 영어에서는 한 단어가 하나의 토큰이 되기도 하지만, 긴 단어는 여러 토큰으로 나뉘기도 합니다.

어떻게 작동하나요?

텍스트를 토큰으로 나누는 도구를 **토크나이저(Tokenizer)**라고 합니다. 토크나이저는 미리 학습된 사전을 기반으로 텍스트를 일정한 규칙에 따라 분리합니다. ChatGPT 같은 LLM은 이렇게 나뉜 토큰을 숫자로 변환한 뒤, 다음에 올 토큰을 예측하는 방식으로 문장을 생성합니다.

왜 중요한가요?

토큰 수는 AI 서비스의 비용과 성능에 직접적으로 영향을 줍니다. API 요금이 토큰 단위로 책정되며, 한 번에 처리할 수 있는 토큰 수(컨텍스트 윈도우)에 제한이 있기 때문입니다. GPT-4가 128K 토큰을 지원한다는 것은, 한 번에 약 300페이지 분량의 텍스트를 처리할 수 있다는 의미입니다. 따라서 토큰을 효율적으로 사용하는 것이 AI 활용의 핵심 전략입니다.

관련 용어