본문으로 건너뛰기
목록으로 돌아가기
생성형 AI

합성 데이터 (Synthetic Data)

실세계 원본을 직접 수집하지 않고 시뮬레이션·생성 모델로 만든 인공 학습 데이터

#합성 데이터#Synthetic Data#인공 데이터#synthetic dataset

합성 데이터란?

합성 데이터는 실제 사용자 데이터 대신 생성 모델, 시뮬레이터, 규칙 기반 엔진으로 만든 인공 데이터입니다.

개인정보 이슈를 줄이거나 희소한 케이스를 보강할 때 자주 사용됩니다.

왜 중요하나요?

고품질 실데이터 확보가 어려운 상황에서 합성 데이터는 모델 학습 속도와 실험 반복성을 높여줍니다.

특히 규제·보안 제약이 큰 도메인에서 데이터 접근 비용을 낮추는 수단으로 활용됩니다.

실무에서 볼 포인트

  1. 현실성 검증: 합성 데이터 분포가 실제 운영 데이터와 얼마나 유사한지 측정해야 합니다.
  2. 편향 관리: 생성 규칙이 특정 패턴을 과대표집하면 모델 편향이 강화될 수 있습니다.
  3. 혼합 전략: 실데이터와 합성 데이터를 적절히 섞는 하이브리드 학습이 안정적입니다.

관련 용어