임베딩 (Embedding)
텍스트나 이미지를 숫자 벡터로 변환하는 표현 기술
#임베딩#벡터#표현학습
임베딩이란?
임베딩은 단어, 문장, 이미지 같은 데이터를 **숫자로 이루어진 벡터(좌표)**로 변환하는 기술입니다. 도서관의 책 분류 시스템을 떠올려 보세요. 비슷한 주제의 책은 같은 서가에 놓이듯, 임베딩은 의미가 비슷한 단어들을 숫자 공간에서 가까운 위치에 배치합니다.
예를 들어 "강아지"와 "고양이"는 숫자 공간에서 서로 가까이 위치하고, "자동차"와는 멀리 떨어지게 됩니다. 컴퓨터는 글자 자체를 이해하지 못하지만, 이렇게 숫자로 변환하면 의미의 유사성을 수학적으로 계산할 수 있습니다.
어떻게 작동하나요?
임베딩 모델은 대량의 텍스트 데이터를 학습하면서, 함께 자주 등장하는 단어들이 비슷한 벡터 값을 갖도록 훈련됩니다. 하나의 단어는 수백에서 수천 개의 숫자 배열로 표현되며, 이 배열의 각 차원이 의미의 서로 다른 측면을 담고 있습니다.
왜 중요한가요?
임베딩은 현대 AI의 핵심 기반 기술입니다. 검색 엔진이 키워드가 아닌 의미 기반으로 결과를 찾고, 추천 시스템이 취향이 비슷한 콘텐츠를 제안하며, RAG(검색 증강 생성)가 관련 문서를 찾아내는 것 모두 임베딩 덕분입니다. ChatGPT가 문맥을 이해하는 능력도 결국 임베딩에서 시작됩니다.
관련 용어
자연어 처리 (NLP)
어텐션 (Attention)
입력 데이터에서 중요한 부분에 집중하는 딥러닝 메커니즘
자연어 처리 (NLP)
에이전트 (AI Agent)
스스로 판단하고 도구를 활용해 작업을 수행하는 자율 AI
자연어 처리 (NLP)
재랭킹 (Reranking)
초기 검색 결과를 다시 평가해 더 관련도 높은 순서로 재정렬하는 후처리 단계
자연어 처리 (NLP)
정보 유실 현상 (Lost in the Middle)
긴 컨텍스트에서 문서 중간 정보가 상대적으로 덜 활용되어 답변 정확도가 떨어지는 현상
자연어 처리 (NLP)
제로샷/퓨샷 (Zero-shot/Few-shot)
예시 없이 또는 소수의 예시만으로 AI가 새로운 작업을 수행하는 방법
자연어 처리 (NLP)
제미나이 (Gemini)
Google DeepMind가 개발한 멀티모달 생성형 AI 모델 계열