합성 데이터 (Synthetic Data)
실세계 원본을 직접 수집하지 않고 시뮬레이션·생성 모델로 만든 인공 학습 데이터
#합성 데이터#Synthetic Data#인공 데이터#synthetic dataset
합성 데이터란?
합성 데이터는 실제 사용자 데이터 대신 생성 모델, 시뮬레이터, 규칙 기반 엔진으로 만든 인공 데이터입니다.
개인정보 이슈를 줄이거나 희소한 케이스를 보강할 때 자주 사용됩니다.
왜 중요하나요?
고품질 실데이터 확보가 어려운 상황에서 합성 데이터는 모델 학습 속도와 실험 반복성을 높여줍니다.
특히 규제·보안 제약이 큰 도메인에서 데이터 접근 비용을 낮추는 수단으로 활용됩니다.
실무에서 볼 포인트
- 현실성 검증: 합성 데이터 분포가 실제 운영 데이터와 얼마나 유사한지 측정해야 합니다.
- 편향 관리: 생성 규칙이 특정 패턴을 과대표집하면 모델 편향이 강화될 수 있습니다.
- 혼합 전략: 실데이터와 합성 데이터를 적절히 섞는 하이브리드 학습이 안정적입니다.