모델·서비스

Stable Diffusion

스테이블 디퓨전

AI 활용 분야에서 영국 Stability AI가 2022년에 공개한 오픈웨이트 텍스트 기반 이미지 생성 모델로, 가중치를 공개해 누구나 로컬 컴퓨터에서 직접 실행하고 파인튜닝할 수 있게 한 Diffusion 계열 표준 모델입니다.

쉬운 풀이

글로 적은 설명을 그림으로 바꿔 주는 AI 모델인데, Stability AI가 모델의 '가중치'(학습으로 정리한 숫자 표)를 통째로 공개해서 누구나 자기 노트북이나 사내 PC에 받아 직접 돌릴 수 있어요. 학교 도서관에서 빌린 책은 정해진 페이지만 보지만, 교수님이 USB로 통째로 넘겨준 PDF는 표지를 바꾸거나 그림을 추가해 내 자료로 다시 만들 수 있는 것과 같습니다. ChatGPT나 미드저니가 회사 서버에 매번 요청을 보내는 방식이라면 Stable Diffusion은 한 번 받아 두면 인터넷 없이도 돌아가는 방식이에요. 광고 시안·게임 캐릭터·웹툰 컨셉 아트처럼 외부에 데이터를 보내기 곤란한 작업에서 출발점으로 자주 쓰입니다.

한 줄 비유

사내 PC에 깔아 두고 외주 시안을 직접 뽑는 표준 그래픽 도구.

활용 예시

Case 1

Civitai — 글로벌 모델 공유 표준 허브

2026년 시점 Civitai에는 27,800건 이상의 Stable Diffusion·FLUX 기반 LoRA·체크포인트·임베딩이 등록돼 있으며, 월간 활성 사용자 1천만 명 규모의 오픈모델 공유 생태계로 자리잡았습니다.^[7] 동일한 SD 1.5·SDXL 가중치를 출발점으로 한국 일러스트·실사 인물·게임 도트 같은 특정 화풍을 학습한 LoRA(Low-Rank Adaptation, 저랭크 적응)가 한 곳에 모이면서, 광고 대행사와 인디 게임 스튜디오가 외주 시안 제작 전 1차 컨셉 탐색 단계에서 표준 검색처로 활용합니다.^[7] 사내 데이터로 추가 파인튜닝 없이 화풍 후보를 빠르게 비교하는 작업에 쓰입니다.

Case 2

디시인사이드·아르카라이브 — 한국 AI 일러스트 커뮤니티

인공지능신문 보도에 따르면 디시인사이드의 '스테이블 디퓨전 마이너 갤러리'와 아르카라이브의 'AI 그림 학습 채널'은 한국에서 SD 1.5·SDXL 기반 한국형 LoRA 학습·배포 노하우가 모이는 대표 커뮤니티입니다.^[9] 이들은 한국 웹툰 화풍·게임 캐릭터·실사 인물 LoRA를 자체 학습·배포하며, 일러스트·게임 도트·캐릭터 디자인 외주 시장의 비교 견적 기준으로 자리잡았습니다.^[9] 인디 게임·웹툰 스튜디오의 컨셉 아트 1차 시안 생성에 채택됐습니다.

Case 3

Hugging Face·Diffusers — 엔터프라이즈 온프레미스 배포 출발점

허깅페이스 공식 모델 카드에 따르면 Stable Diffusion 1.5는 Diffusers 라이브러리·ComfyUI·Automatic1111·SD.Next·InvokeAI에서 그대로 호출되며, 512×512 이미지를 약 4~6GB VRAM의 소비자급 GPU에서 생성할 수 있습니다.^[2] CompVis·RunwayML·Comfy-Org 같은 여러 조직이 같은 가중치를 미러링·재배포해, 외부 API 호출 없이 사내망 안에서 텍스트-이미지 파이프라인을 만들 때 표준 출발점으로 쓰입니다.^[2][8] 사외 반출이 금지된 컨셉 시안·내부 자료 시각화 작업에 활용됩니다.

Case 4

Stability AI × NVIDIA — SD 3.5 NIM 마이크로서비스

Stability AI 공식 발표에 따르면 2025년 1월 SD 3.5 Large·Medium·Large Turbo가 NVIDIA NIM 마이크로서비스로 패키징돼, 엔터프라이즈 GPU 인프라(H100·H200) 위에서 추론 처리량이 표준 PyTorch 대비 2.3배까지 늘어났습니다.^[10] 같은 모델을 NVIDIA TensorRT 최적화 가중치로 배포해 사내 컴플라이언스·법무 검토 한 번으로 여러 사업부가 공동 사용할 수 있도록 만든 점이 도입 이유로 꼽힙니다.^[10] 자사 브랜드 가이드라인으로 파인튜닝해 사내 마케팅 자산을 일관되게 생성해야 하는 워크플로에 쓰입니다.

참고사항

Hugging Face의 'stable-diffusion-v1-5/stable-diffusion-v1-5' 모델 카드에서 라이선스(CreativeML Open RAIL-M)와 사용 제한 조항을 한 번 통독합니다.
ComfyUI 또는 Automatic1111 WebUI를 로컬 PC에 설치하고 SD 1.5·SDXL 가중치를 띄워 동일 프롬프트로 출력을 비교합니다.
Civitai에서 자사 브랜드 화풍과 가장 가까운 LoRA 1~2개를 받아 베이스 모델에 얹어 컨셉 시안을 5장씩 생성해 봅니다.
ControlNet(자세·구도 제어)과 LoRA(화풍 학습)를 결합해 사내 캐릭터 일관성을 유지하는 워크플로를 짧게 문서화합니다.
Stability AI Community License 본문을 읽어, 자사 연 매출 규모(100만 달러 기준)와 상업 사용 조건을 표로 비교합니다.

arXiv 논문에 따르면 Stable Diffusion은 잠재 공간에서 동작하기 때문에 픽셀 공간 모델보다 학습 비용이 낮지만, 사람 손가락·작은 텍스트 렌더링·복잡한 공간 관계에서 여전히 오류가 잦습니다.^[3] 허깅페이스 모델 카드는 LAION-5B 같은 웹 크롤링 데이터에서 학습된 편향이 출력에 그대로 반영되며, NSFW·저작권 침해 가능성에 대한 책임이 사용자에게 있음을 명시하고 있습니다.^[2] 또한 Stability AI Community License는 연 매출 100만 달러 이상 기업에 별도 엔터프라이즈 계약을 요구해, '무료 오픈모델'이라는 단순 인식과 달리 도입 전 법무 검토가 필요한 영역이 남습니다.^[6]

진화 방향은 세 갈래로 정리됩니다.

Stability AI는 SD 3.5에서 단일 모델 대신 Large·Large Turbo·Medium 세 변형을 함께 공개하면서, 같은 아키텍처를 GPU 사양에 맞춰 고르는 방식을 표준으로 제시했습니다.^[6]
NVIDIA NIM 마이크로서비스와 TensorRT 최적화로 엔터프라이즈 배포·추론 가속이 단순해지면서, 온프레미스 GPU를 가진 기업이 도입 진입 장벽을 낮출 수 있게 됐습니다.^[10]
ControlNet·AnimateDiff·LoRA처럼 커뮤니티 확장 생태계가 본체보다 빠르게 진화하면서, 사내 도입 시 '어느 베이스 모델 + 어느 확장 + 어느 LoRA'를 표준으로 잡을지가 실무 의사결정의 핵심으로 옮겨갔습니다.^[7][8] 동시에 FLUX(Black Forest Labs)·Imagen 3 같은 후발 오픈·폐쇄형 모델들이 디테일·프롬프트 충실도를 끌어올리면서, '어떤 모델 한 줄'을 선택하기보다 '용도별 모델 + 확장 조합'을 운영하는 방식이 표준이 되고 있습니다.^[5]

이 용어와의 관계

유사 개념
Fireworks AI같은 모델·서비스 갈래에서 자주 함께 등장하는 개념입니다.
유사 개념
Together AI같은 모델·서비스 갈래에서 자주 함께 등장하는 개념입니다.
유사 개념
Groq같은 모델·서비스 갈래에서 자주 함께 등장하는 개념입니다.