Latent Space

잠재 공간 : 딥러닝 모델이 원본 데이터의 핵심 특징만 압축하여 저차원으로 표현한 추상적인 공간

멀티모달

ComfyUI 강의 링크

사유하는코드 2026. 1. 24. 01:47

조피디 연구소 JoPD LAB : 총 3시간 20분

https://www.youtube.com/playlist?list=PLdWJCXJ7ciCC7qyz1l0MEJJ04nCgm2Kay

San AI 연구소

https://www.youtube.com/playlist?list=PLm2Af8-oBC3bpTOhzMybBGPJi5dROyHj_

 

 

용어정리

backbone : 모든 생성의 중심이 되는 기본 확산 모델(checkpoint), 그림의 전체 스타일·지식(.safetensors 파일)

 

  • sd_v1-5.safetensors
  • realisticVision.safetensors
  • sdxl_base_1.0.safetensors

LoRA : 특정 스타일/캐릭터 보정

VAE : 색감/디코딩

ControlNet : 구조·포즈·윤곽 강제

Sampler : 생성 방식

 

[텍스트 / 이미지]
        ↓
     (Encoder)
        ↓
   [Latent 공간] : Stable Diffusion은 latent diffusion 구조라 “이미지 전체”가 아니라 압축된 latent에서 작업
        ↓
     (Decoder)
        ↓
     최종 이미지

 

■ 인코더(Encoder)

- Text Encoder (CLIP)

  • 프롬프트 → 의미 벡터
  • ComfyUI 노드:
    • CLIP Text Encode
  • LoRA가 여기에도 영향

- Image Encoder (VAE Encoder)

  • img2img, ControlNet 입력 이미지
  • 이미지 → latent
  • ComfyUI 내부에서 자동 처리

■ 디코더(Decoder) 

- U-Net (Diffusion Backbone)

  • 진짜 그림을 “그리는” 핵심
  • 노이즈 제거 과정을 담당
  • 보통 사람들이 말하는 backbone

- VAE Decoder

  • latent → 실제 이미지
  • 색감, 디테일 담당

구성요소인코더/디코더역할

CLIP Text 인코더 텍스트 의미 변환
CLIP Image 인코더 이미지 조건 변환
U-Net 중간(Backbone) 확산(노이즈 제거)
VAE Encoder 인코더 이미지→latent
VAE Decoder 디코더 latent→이미지

 

 

ComfyUI 기본 txt2img 워크플로우 (구조도)

 

[ Prompt (텍스트) ]
        ↓
┌────────────────────┐
│ CLIP Text Encode   │  ← 인코더 (Text Encoder) : 텍스트 → 의미 벡터 , LoRA (strength_clip)
└────────────────────┘
        ↓ (conditioning)

┌────────────────────┐
│ Checkpoint Loader  │
│  ├─ CLIP           │
│  ├─ U-Net          │  ← Backbone: 어떻게 그릴지 결정, LoRA (strength_model)
│  └─ VAE            │
└────────────────────┘

        ↓
┌────────────────────┐
│ KSampler           │  ← U-Net (Diffusion) : 노이즈 제거 = 그림 생성
│ (노이즈 제거)      │
└────────────────────┘
        ↓ (latent)

┌────────────────────┐
│ VAE Decode         │  ← 디코더 (Image Decoder) : latent → 픽셀 이미지
└────────────────────┘
        ↓

[ 최종 이미지 ]

 

img2img 추가 구조

 

[ 입력 이미지 ]
        ↓
┌────────────────────┐
│ VAE Encode         │  ← 인코더 (Image Encoder)
└────────────────────┘
        ↓
      latent

 

ControlNet 추가 시

 

[ 포즈 / 스케치 이미지 ]
        ↓
ControlNet Encoder    ← 인코더
        ↓
     U-Net (KSampler) ← Backbone

 

VAE encoder : μ, σ를 출력하고 정규분포 노이즈를 샘플링하여 latent를 생성하지만, 목적은 압축이 아니라 latent 공간을 확률적 분포로 만드는 것

U-Net : 신경망 아키텍처(모델 구조) , 원래 이미지 분할(Image Segmentation)을 위해 만든 CNN 구조

Skip connection : 압축(downsampling) 과정에서 사라질 수 있는 공간 정보를 decoder에 전달해 복원을 정확하게 하기 위한 구조
Diffusion Model : 이미지 생성 방법(확률적 생성 모델)

ControlNet : Stable Diffusion의 conditioning에 구조 조건( 포즈 등)을 추가하는 방식

 

1. VAE Encoder
이미지 → latent 압축

2. Diffusion (U-Net)
latent에 노이즈 추가

U-Net이 노이즈 예측

반복적으로 denoise

3. VAE Decoder
latent → 이미지 복원

 

 

n8n 연동하기

n8n에서 ComfyUI연결

 

'멀티모달' 카테고리의 다른 글

ComfyUI 체크포인트 다운로드  (0) 2026.01.24
ComfyUI 적용 실제 사례  (0) 2026.01.24
Stability Matrix (ComfyUI, Stable Diffusion WebUI) 설치  (0) 2026.01.24
ComfyUI 설치(Google Colab)  (0) 2026.01.24
ComfyUI 설치 (Ubuntu)  (0) 2026.01.22