ComfyUI 강의 링크

멀티모달

ComfyUI 강의 링크

사유하는코드 2026. 1. 24. 01:47

조피디 연구소 JoPD LAB : 총 3시간 20분

https://www.youtube.com/playlist?list=PLdWJCXJ7ciCC7qyz1l0MEJJ04nCgm2Kay

San AI 연구소

https://www.youtube.com/playlist?list=PLm2Af8-oBC3bpTOhzMybBGPJi5dROyHj_

용어정리

backbone : 모든 생성의 중심이 되는 기본 확산 모델(checkpoint), 그림의 전체 스타일·지식(.safetensors 파일)

sd_v1-5.safetensors
realisticVision.safetensors
sdxl_base_1.0.safetensors

LoRA : 특정 스타일/캐릭터 보정

VAE : 색감/디코딩

ControlNet : 구조·포즈·윤곽 강제

Sampler : 생성 방식

[텍스트 / 이미지]
        ↓
     (Encoder)
        ↓
   [Latent 공간] : Stable Diffusion은 latent diffusion 구조라 “이미지 전체”가 아니라 압축된 latent에서 작업
        ↓
     (Decoder)
        ↓
     최종 이미지

■ 인코더(Encoder)

- Text Encoder (CLIP)

프롬프트 → 의미 벡터
ComfyUI 노드:
- CLIP Text Encode
LoRA가 여기에도 영향 줌

- Image Encoder (VAE Encoder)

img2img, ControlNet 입력 이미지
이미지 → latent
ComfyUI 내부에서 자동 처리

■ 디코더(Decoder)

- U-Net (Diffusion Backbone)

진짜 그림을 “그리는” 핵심
노이즈 제거 과정을 담당
보통 사람들이 말하는 backbone

- VAE Decoder

latent → 실제 이미지
색감, 디테일 담당

구성요소인코더/디코더역할

CLIP Text	인코더	텍스트 의미 변환
CLIP Image	인코더	이미지 조건 변환
U-Net	중간(Backbone)	확산(노이즈 제거)
VAE Encoder	인코더	이미지→latent
VAE Decoder	디코더	latent→이미지

ComfyUI 기본 txt2img 워크플로우 (구조도)

[ Prompt (텍스트) ]
        ↓
┌────────────────────┐
│ CLIP Text Encode   │  ← 인코더 (Text Encoder) : 텍스트 → 의미 벡터 , LoRA (strength_clip)
└────────────────────┘
        ↓ (conditioning)

┌────────────────────┐
│ Checkpoint Loader  │
│  ├─ CLIP           │
│  ├─ U-Net          │  ← Backbone: 어떻게 그릴지 결정, LoRA (strength_model)
│  └─ VAE            │
└────────────────────┘

        ↓
┌────────────────────┐
│ KSampler           │  ← U-Net (Diffusion) : 노이즈 제거 = 그림 생성
│ (노이즈 제거)      │
└────────────────────┘
        ↓ (latent)

┌────────────────────┐
│ VAE Decode         │  ← 디코더 (Image Decoder) : latent → 픽셀 이미지
└────────────────────┘
        ↓

[ 최종 이미지 ]

img2img 추가 구조

[ 입력 이미지 ]
        ↓
┌────────────────────┐
│ VAE Encode         │  ← 인코더 (Image Encoder)
└────────────────────┘
        ↓
      latent

ControlNet 추가 시

[ 포즈 / 스케치 이미지 ]
        ↓
ControlNet Encoder    ← 인코더
        ↓
     U-Net (KSampler) ← Backbone

VAE encoder : μ, σ를 출력하고 정규분포 노이즈를 샘플링하여 latent를 생성하지만, 목적은 압축이 아니라 latent 공간을 확률적 분포로 만드는 것

U-Net : 신경망 아키텍처(모델 구조) , 원래 이미지 분할(Image Segmentation)을 위해 만든 CNN 구조

Skip connection : 압축(downsampling) 과정에서 사라질 수 있는 공간 정보를 decoder에 전달해 복원을 정확하게 하기 위한 구조
Diffusion Model : 이미지 생성 방법(확률적 생성 모델)

ControlNet : Stable Diffusion의 conditioning에 구조 조건( 포즈 등)을 추가하는 방식

1. VAE Encoder
이미지 → latent 압축

2. Diffusion (U-Net)
latent에 노이즈 추가
↓
U-Net이 노이즈 예측
↓
반복적으로 denoise

3. VAE Decoder
latent → 이미지 복원

n8n 연동하기

n8n에서 ComfyUI연결

저작자표시 (새창열림)

'멀티모달' 카테고리의 다른 글

ComfyUI 체크포인트 다운로드 (0)	2026.01.24
ComfyUI 적용 실제 사례 (0)	2026.01.24
Stability Matrix (ComfyUI, Stable Diffusion WebUI) 설치 (0)	2026.01.24
ComfyUI 설치(Google Colab) (0)	2026.01.24
ComfyUI 설치 (Ubuntu) (0)	2026.01.22

현재글ComfyUI 강의 링크

AI story 사유하는코드

- 사유(思惟): 대상을 두루 생각하는 일 - Master's degree in Data science

Today :
Yesterday :

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

AI story 사유하는코드