목록으로 돌아가기

생성형 AI

디퓨전 모델 (Diffusion Model)

노이즈 제거 과정을 학습하여 고품질 이미지를 생성하는 AI 모델

#디퓨전#이미지생성#생성형AI

디퓨전 모델이란?

디퓨전 모델(Diffusion Model)은 이미지에 노이즈(잡음)를 점진적으로 추가하는 과정을 학습한 뒤, 그 반대 과정으로 순수한 노이즈에서 깨끗한 이미지를 만들어내는 생성형 AI 모델입니다.

비유하자면, 조각가가 대리석 덩어리에서 조각상을 깎아내는 과정과 같습니다. 처음에는 아무 형태도 없는 돌덩이(노이즈)에서 시작하여 조금씩 불필요한 부분을 제거하면서 아름다운 작품(이미지)이 드러나는 것입니다.

어떻게 작동하나요?

디퓨전 모델은 두 가지 과정으로 이루어집니다.

정방향 과정 (Forward Process): 원본 이미지에 단계적으로 가우시안 노이즈를 추가하여 결국 완전한 노이즈 이미지로 만듭니다. 이 과정을 통해 모델은 각 단계에서 어떤 노이즈가 추가되었는지를 학습합니다.
역방향 과정 (Reverse Process): 순수한 노이즈에서 시작하여 한 단계씩 노이즈를 제거하며 원래 이미지를 복원합니다. 실제 이미지 생성 시에는 이 역방향 과정만 사용됩니다.

대표 사례

Stable Diffusion: 오픈소스로 공개되어 커뮤니티에서 활발히 활용
DALL-E: OpenAI의 텍스트-이미지 생성 모델
Midjourney: 예술적 스타일의 고품질 이미지 생성으로 유명

디퓨전 모델은 이전의 GAN(생성적 적대 신경망)보다 학습이 안정적이고 다양한 이미지를 생성할 수 있어, 현재 이미지 생성 AI의 주류 기술로 자리잡았습니다.

관련 용어

멀티모달 (Multimodal)

텍스트, 이미지, 음성 등 여러 형태의 데이터를 동시에 처리하는 AI

합성 데이터 (Synthetic Data)

실세계 원본을 직접 수집하지 않고 시뮬레이션·생성 모델로 만든 인공 학습 데이터

목록으로 돌아가기