본문으로 건너뛰기
AI 기업·투자·사업

Wikidata

위키미디어 재단이 운영하는 기계 판독 가능한 무료 지식 데이터베이스. 모든 엔터티에 고유한 Q-ID를 부여하며 CC0 라이선스로 공개된다

#Wikidata#위키데이터#지식 그래프#Q-ID#구조화 데이터#Entity SEO#연결 데이터

Wikidata란?

Wikidata는 2012년 위키미디어 재단(Wikipedia를 운영하는 동일 기관)이 시작한 구조화된 지식 데이터베이스다. Wikipedia가 사람이 읽는 백과사전이라면, Wikidata는 기계가 읽는 백과사전이다.

Wikidata 공식 소개 문서에 따르면, 모든 엔터티(인물·조직·장소·개념)에는 고유한 Q-ID(예: Q95는 구글)가 부여되며, 모든 데이터는 CC0 라이선스(저작권 포기)로 공개되어 별도의 허가 없이 자유롭게 사용할 수 있다.

LLM 시대에 왜 중요한가?

두 가지 특성이 Wikidata를 LLM 시대의 구조적 중심으로 만들었다.

고유 식별자. Q-ID는 동명이인·동명 브랜드 문제를 기계가 읽을 수 있는 방식으로 해결한다. "Apple"이 회사(Q312)인지 과일(Q89)인지를 Q-ID는 명확히 구분한다.

자유 라이선스. 대부분의 대형 LLM 훈련 데이터셋이 Wikidata를 저작권 마찰 없이 포함한다. Wikidata에 등록된 브랜드는 사전학습 커버리지에서 측정 가능한 이점을 얻는다.

또한 Google Knowledge Graph는 Wikidata를 핵심 데이터 소스로 사용한다. Wikidata 속성 하나를 개선하면 Wikidata → Google Knowledge Graph → Google AI Overview → Gemini 답변으로 연쇄 전파될 수 있다.

데이터 구조: 삼중항(Triple)

Wikidata는 지식을 삼중항(주어–술어–목적어) 구조로 표현한다:

RanketAI (주어) — instance of (술어) — software as a service (목적어)

이 관계 구조 덕분에 LLM은 "어떤 카테고리의 대표 엔터티는 누구인가"를 판단할 수 있다. 일반 문서 텍스트만으로는 전달하기 어려운 정밀도다.

브랜드 등록 시 주요 속성

속성 ID 예시
instance of P31 software as a service
country P17 South Korea
official website P856 https://www.ranketai.com
Twitter 사용자명 P2002 ranket_ai
industry P452 software industry

관련 용어

관련 용어