조피디 연구소 JoPD LAB : 총 3시간 20분
https://www.youtube.com/playlist?list=PLdWJCXJ7ciCC7qyz1l0MEJJ04nCgm2Kay
San AI 연구소
https://www.youtube.com/playlist?list=PLm2Af8-oBC3bpTOhzMybBGPJi5dROyHj_
용어정리
backbone : 모든 생성의 중심이 되는 기본 확산 모델(checkpoint), 그림의 전체 스타일·지식(.safetensors 파일)
- sd_v1-5.safetensors
- realisticVision.safetensors
- sdxl_base_1.0.safetensors
LoRA : 특정 스타일/캐릭터 보정
VAE : 색감/디코딩
ControlNet : 구조·포즈·윤곽 강제
Sampler : 생성 방식
[텍스트 / 이미지]
↓
(Encoder)
↓
[Latent 공간] : Stable Diffusion은 latent diffusion 구조라 “이미지 전체”가 아니라 압축된 latent에서 작업
↓
(Decoder)
↓
최종 이미지
■ 인코더(Encoder)
- Text Encoder (CLIP)
- 프롬프트 → 의미 벡터
- ComfyUI 노드:
- CLIP Text Encode
- LoRA가 여기에도 영향 줌
- Image Encoder (VAE Encoder)
- img2img, ControlNet 입력 이미지
- 이미지 → latent
- ComfyUI 내부에서 자동 처리
■ 디코더(Decoder)
- U-Net (Diffusion Backbone)
- 진짜 그림을 “그리는” 핵심
- 노이즈 제거 과정을 담당
- 보통 사람들이 말하는 backbone
- VAE Decoder
- latent → 실제 이미지
- 색감, 디테일 담당
구성요소인코더/디코더역할
| CLIP Text | 인코더 | 텍스트 의미 변환 |
| CLIP Image | 인코더 | 이미지 조건 변환 |
| U-Net | 중간(Backbone) | 확산(노이즈 제거) |
| VAE Encoder | 인코더 | 이미지→latent |
| VAE Decoder | 디코더 | latent→이미지 |
ComfyUI 기본 txt2img 워크플로우 (구조도)
[ Prompt (텍스트) ]
↓
┌────────────────────┐
│ CLIP Text Encode │ ← 인코더 (Text Encoder) : 텍스트 → 의미 벡터 , LoRA (strength_clip)
└────────────────────┘
↓ (conditioning)
┌────────────────────┐
│ Checkpoint Loader │
│ ├─ CLIP │
│ ├─ U-Net │ ← Backbone: 어떻게 그릴지 결정, LoRA (strength_model)
│ └─ VAE │
└────────────────────┘
↓
┌────────────────────┐
│ KSampler │ ← U-Net (Diffusion) : 노이즈 제거 = 그림 생성
│ (노이즈 제거) │
└────────────────────┘
↓ (latent)
┌────────────────────┐
│ VAE Decode │ ← 디코더 (Image Decoder) : latent → 픽셀 이미지
└────────────────────┘
↓
[ 최종 이미지 ]
img2img 추가 구조
[ 입력 이미지 ]
↓
┌────────────────────┐
│ VAE Encode │ ← 인코더 (Image Encoder)
└────────────────────┘
↓
latent
ControlNet 추가 시
[ 포즈 / 스케치 이미지 ]
↓
ControlNet Encoder ← 인코더
↓
U-Net (KSampler) ← Backbone
VAE encoder : μ, σ를 출력하고 정규분포 노이즈를 샘플링하여 latent를 생성하지만, 목적은 압축이 아니라 latent 공간을 확률적 분포로 만드는 것
U-Net : 신경망 아키텍처(모델 구조) , 원래 이미지 분할(Image Segmentation)을 위해 만든 CNN 구조
Skip connection : 압축(downsampling) 과정에서 사라질 수 있는 공간 정보를 decoder에 전달해 복원을 정확하게 하기 위한 구조
Diffusion Model : 이미지 생성 방법(확률적 생성 모델)
ControlNet : Stable Diffusion의 conditioning에 구조 조건( 포즈 등)을 추가하는 방식


1. VAE Encoder
이미지 → latent 압축
2. Diffusion (U-Net)
latent에 노이즈 추가
↓
U-Net이 노이즈 예측
↓
반복적으로 denoise
3. VAE Decoder
latent → 이미지 복원

n8n 연동하기

'멀티모달' 카테고리의 다른 글
| ComfyUI 체크포인트 다운로드 (0) | 2026.01.24 |
|---|---|
| ComfyUI 적용 실제 사례 (0) | 2026.01.24 |
| Stability Matrix (ComfyUI, Stable Diffusion WebUI) 설치 (0) | 2026.01.24 |
| ComfyUI 설치(Google Colab) (0) | 2026.01.24 |
| ComfyUI 설치 (Ubuntu) (0) | 2026.01.22 |