본문으로 건너뛰기
목록으로 돌아가기
자연어 처리 (NLP)

임베딩 (Embedding)

텍스트나 이미지를 숫자 벡터로 변환하는 표현 기술

#임베딩#벡터#표현학습

임베딩이란?

임베딩은 단어, 문장, 이미지 같은 데이터를 **숫자로 이루어진 벡터(좌표)**로 변환하는 기술입니다. 도서관의 책 분류 시스템을 떠올려 보세요. 비슷한 주제의 책은 같은 서가에 놓이듯, 임베딩은 의미가 비슷한 단어들을 숫자 공간에서 가까운 위치에 배치합니다.

예를 들어 "강아지"와 "고양이"는 숫자 공간에서 서로 가까이 위치하고, "자동차"와는 멀리 떨어지게 됩니다. 컴퓨터는 글자 자체를 이해하지 못하지만, 이렇게 숫자로 변환하면 의미의 유사성을 수학적으로 계산할 수 있습니다.

어떻게 작동하나요?

임베딩 모델은 대량의 텍스트 데이터를 학습하면서, 함께 자주 등장하는 단어들이 비슷한 벡터 값을 갖도록 훈련됩니다. 하나의 단어는 수백에서 수천 개의 숫자 배열로 표현되며, 이 배열의 각 차원이 의미의 서로 다른 측면을 담고 있습니다.

왜 중요한가요?

임베딩은 현대 AI의 핵심 기반 기술입니다. 검색 엔진이 키워드가 아닌 의미 기반으로 결과를 찾고, 추천 시스템이 취향이 비슷한 콘텐츠를 제안하며, RAG(검색 증강 생성)가 관련 문서를 찾아내는 것 모두 임베딩 덕분입니다. ChatGPT가 문맥을 이해하는 능력도 결국 임베딩에서 시작됩니다.

관련 용어