토큰 (Token)
AI가 텍스트를 처리하는 최소 단위
#토큰#토크나이저#LLM
토큰이란?
토큰은 AI가 텍스트를 읽고 이해할 때 사용하는 최소 단위 조각입니다. 레고 블록을 떠올려 보세요. 우리가 멋진 성을 만들 때 작은 블록 하나하나를 조립하듯, AI도 문장을 작은 토큰 조각으로 나눠서 처리합니다.
예를 들어 "인공지능이 세상을 바꾼다"라는 문장은 "인공", "지능", "이", "세상", "을", "바꾼다"처럼 여러 토큰으로 쪼개질 수 있습니다. 영어에서는 한 단어가 하나의 토큰이 되기도 하지만, 긴 단어는 여러 토큰으로 나뉘기도 합니다.
어떻게 작동하나요?
텍스트를 토큰으로 나누는 도구를 **토크나이저(Tokenizer)**라고 합니다. 토크나이저는 미리 학습된 사전을 기반으로 텍스트를 일정한 규칙에 따라 분리합니다. ChatGPT 같은 LLM은 이렇게 나뉜 토큰을 숫자로 변환한 뒤, 다음에 올 토큰을 예측하는 방식으로 문장을 생성합니다.
왜 중요한가요?
토큰 수는 AI 서비스의 비용과 성능에 직접적으로 영향을 줍니다. API 요금이 토큰 단위로 책정되며, 한 번에 처리할 수 있는 토큰 수(컨텍스트 윈도우)에 제한이 있기 때문입니다. GPT-4가 128K 토큰을 지원한다는 것은, 한 번에 약 300페이지 분량의 텍스트를 처리할 수 있다는 의미입니다. 따라서 토큰을 효율적으로 사용하는 것이 AI 활용의 핵심 전략입니다.
관련 용어
자연어 처리 (NLP)
컨텍스트 윈도우 (Context Window)
AI 모델이 한 번에 읽고 처리할 수 있는 입력 토큰의 최대 범위
자연어 처리 (NLP)
에이전트 (AI Agent)
스스로 판단하고 도구를 활용해 작업을 수행하는 자율 AI
자연어 처리 (NLP)
파인튜닝 (Fine-tuning)
사전 학습된 AI 모델을 특정 목적에 맞게 추가 학습시키는 기술
자연어 처리 (NLP)
프롬프트 (Prompt)
AI 모델에게 원하는 결과를 얻기 위해 입력하는 지시문
자연어 처리 (NLP)
할루시네이션 (Hallucination)
AI가 사실이 아닌 정보를 그럴듯하게 생성하는 현상
자연어 처리 (NLP)
GPT
OpenAI가 개발한 대표적인 대규모 언어 모델 시리즈