기본

Diffusion

디퓨전

AI 모델 분야에서 쓰이는 용어로, 무작위 노이즈를 단계적으로 걸러내며 이미지를 만들어 내도록 설계한 생성 모델 구조로, Stable Diffusion·DALL·E·Sora·Veo의 핵심 알고리즘입니다.

쉬운 풀이

디퓨전은 깨끗한 사진에 모래폭풍 같은 노이즈를 잔뜩 끼얹어 알아볼 수 없게 만든 다음, 그 과정을 거꾸로 한 단계씩 되감으며 이미지를 복원하는 방법을 학습하는 AI 모델이에요. 그래서 새로 이미지를 만들 때는 완전한 잡음 화면에서 출발해 단계마다 조금씩 형태를 또렷하게 다듬어 갑니다. 조별 과제에서 흐릿한 스캔본을 한 줄씩 다듬어 깨끗한 보고서로 만드는 작업과 닮았어요. Stable Diffusion·DALL·E·Sora 같은 이미지·영상 생성 도구가 모두 이 구조를 씁니다.

한 줄 비유

초안에 노이즈를 끼얹었다가 한 단계씩 다듬어 가는 검토 절차입니다.

활용 예시

Case 1

Stability AI Stable Diffusion — 잠재 확산 기반 오픈 표준

2022년 8월 22일 Stability AI는 잠재 확산 구조 기반의 Stable Diffusion 1.4 가중치를 정식 공개하면서 같은 모델이 약 4GB VRAM의 소비자용 GPU에서도 512×512 이미지를 생성할 수 있다고 밝혔습니다.^[2][6] 광고 대행사·인디 게임 스튜디오가 클라우드 API 비용 없이 사내 PC에서 컨셉 시안을 만들 수 있게 된 전환점입니다. 사내 보고서 일러스트·제품 콘셉트 이미지·블로그 썸네일처럼 외주 견적이 큰 작업의 1차 시안 단계에 표준으로 자리잡았습니다.

Case 2

OpenAI DALL·E 2 — 텍스트-이미지 상용화의 분기점

OpenAI가 2022년 4월 공개한 DALL·E 2는 CLIP(Contrastive Language-Image Pre-training, 대조 언어-이미지 사전 학습) 잠재 표현 위에서 동작하는 디퓨전 디코더 구조를 채택해, 같은 사양의 직전 모델 대비 4배 해상도인 1024×1024 이미지를 생성하도록 설계됐습니다.^[3] 디퓨전이 학술 영역을 넘어 일반 사용자용 상용 서비스로 확장된 첫 사례로 꼽히며, 마케팅·디자인 부서가 시안 생성 시간을 크게 줄이는 표준 도구로 자리잡았습니다. 광고 시안·블로그 헤더 이미지·발표 자료 일러스트 작업에 쓰이고 있습니다.

Case 3

OpenAI Sora — 디퓨전 트랜스포머로 확장한 영상 생성

OpenAI는 2024년 2월 발표한 Sora 기술 보고서에서 모델 구조를 "디퓨전 트랜스포머(Diffusion Transformer)"로 소개했습니다. 영상과 이미지의 잠재 패치(spacetime patches, 시공간 패치)에 노이즈를 더한 뒤 트랜스포머 기반 디노이저로 다시 복원하도록 학습했고, 해상도·길이·종횡비를 고정하지 않아 최대 1분 분량의 1080p 영상을 한 번에 생성할 수 있다고 밝혔습니다.^[4] 광고 가편집·신제품 티저·사내 교육 영상 시나리오 검토에 활용되고 있습니다.

Case 4

Google DeepMind Veo — 영화 산업용 디퓨전 영상 모델

Google DeepMind는 2024년 5월 I/O에서 Veo를 공개하며, 디퓨전 기반 영상 생성 모델로 1080p 해상도·1분 이상 길이의 영상을 텍스트 프롬프트로 만들 수 있다고 발표했습니다.^[7] 2024년 9월에는 영화 감독 도널드 글로버 팀과의 협업을 거쳐 YouTube Shorts·Vertex AI 엔터프라이즈 라인에 통합 배포됐고, 광고 대행사·방송사가 스토리보드 사전 검토 단계에서 표준 도구로 채택하기 시작했습니다.^[7] 캠페인 컨셉 무빙 보드·영상 시안 빠른 비교 작업에 쓰이고 있습니다.

참고사항

arXiv에서 DDPM 원본 논문(2006.11239)을 열어 그림 2(순방향·역방향 과정 도식)만 캡처해 사내 공유 드라이브에 저장합니다.
Rombach의 잠재 확산 논문(2112.10752) 초록을 5분 이내로 읽고 "pixel space → latent space" 한 줄 메모를 남깁니다.
Hugging Face 또는 ComfyUI에서 Stable Diffusion 1.5 데모를 띄워 같은 프롬프트의 단계별 디노이징 결과를 5장 출력해 비교합니다.
OpenAI Sora 기술 보고서의 "Diffusion Transformer" 절을 열어 "스페이스타임 패치" 개념을 한 문장으로 요약해 팀 노션에 올립니다.
다음 회의에서 "이미지·영상·오디오·단백질이 같은 디퓨전 구조로 풀린다"를 한 줄로 보고해 부서별 적용 후보를 모읍니다.

디퓨전 모델의 가장 큰 한계는 추론 비용입니다. 결과물을 얻으려면 학습된 역방향 단계를 수십~수천 번 반복해야 하기 때문에, 같은 품질을 내는 자기회귀(autoregressive) 모델 대비 생성 시간이 길고 GPU 비용이 큽니다.^[1][5] 학습 데이터에 포함된 저작권·초상권·편향 문제도 보는 시각에 따라 구조 자체보다 운영상의 한계로 지적됩니다. 자연어 영역에서는 단어가 이산값이라는 점 때문에 표준 디퓨전을 그대로 적용하기 어렵고, 현재 시점에서는 트랜스포머 기반 자기회귀 모델이 여전히 주류입니다.^[8] 1024×1024 이상 고해상도 이미지에서는 손가락·작은 텍스트·복잡한 공간 관계 표현에서 오류가 잦다는 점도 자주 지적되는 약점입니다.^[2]

진화 방향은 세 갈래입니다.

잠재 공간 활용입니다. Rombach의 잠재 확산 이후 픽셀이 아닌 압축된 잠재 표현에서 디퓨전을 수행하는 방식이 표준으로 자리잡았고, Stable Diffusion·Sora·Veo가 모두 이 계열입니다.^[2][4][7]
트랜스포머와의 결합입니다. Sora의 "디퓨전 트랜스포머"처럼 디노이저 자체를 트랜스포머로 두는 구조가 영상·3D·고해상도 이미지 영역에서 확산되고 있으며, 같은 구조가 Google Veo·Runway Gen-3·Kling 같은 후속 영상 모델에서도 공통적으로 채택되고 있습니다.^[4][7]
영역 확장입니다. RFdiffusion(2023, 단백질)·AudioLDM(2023, 오디오)처럼 같은 수학 구조가 과학·음성 영역으로 옮겨가고 있고, 2025년 2월 공개된 LLaDA 같은 디퓨전 기반 언어 모델도 자기회귀 모델과 견줄 만한 성능을 보이기 시작했습니다.^[8][9][10]

이 용어와의 관계

유사 개념
Throughput같은 기본 갈래에서 자주 함께 등장하는 개념입니다.
유사 개념
Latency같은 기본 갈래에서 자주 함께 등장하는 개념입니다.
유사 개념
SWE-bench같은 기본 갈래에서 자주 함께 등장하는 개념입니다.