Latent Space

잠재 공간 : 딥러닝 모델이 원본 데이터의 핵심 특징만 압축하여 저차원으로 표현한 추상적인 공간

LLM

Gemma 4와 양자화모델

사유하는코드 2026. 4. 7. 10:51

https://ai.google.dev/gemma/docs/core/model_card_4?hl=ko

Gemma 4 모델을 vLLM(버전 0.7 이상 권장)에 연결합니다. Gemma 4는 256K의 긴 컨텍스트 창 멀티모달 기능을 지원하므로, 실행 시 관련 설정을 확인하는 것이 중요합니다.

 

 

vLLM에 연결하기

export HUGGING_FACE_HUB_TOKEN="your_token_here"

python -m vllm.entrypoints.openai.api_server \
    --model noctrex/gemma-4-26B-A4B-it-MXFP4_MOE-GGUF \
    --tokenizer google/gemma-4-26B-A4B-it \
    --trust-remote-code
# 모델 파일 다운로드 CLI

pip install huggingface_hub

huggingface-cli login

# 특정 GGUF 파일 하나만 다운로드 (예: 약 15.4GB 파일)
huggingface-cli download noctrex/gemma-4-26B-A4B-it-MXFP4_MOE-GGUF \
    gemma-4-26B-A4B-it-MXFP4_MOE.gguf \
    --local-dir ./my_gemma4_model
    
python -m vllm.entrypoints.openai.api_server \
    --model ./my_gemma4_model/gemma-4-26B-A4B-it-MXFP4_MOE.gguf \
    --tokenizer google/gemma-4-26B-A4B-it \
    --trust-remote-code

 

양자화모델사용하기

#허깅페이스 로그인 필요
#vLLM 실행 시 양자화하여 사용

python -m vllm.entrypoints.openai.api_server \
    --model google/translategemma-27b-it \
    --quantization fp8 \
    --max-model-len 2048 \
    --trust-remote-code
#GGUF 양자화 모델 다운로드하여 사용

huggingface-cli download bartowski/translategemma-27b-it-GGUF \
    translategemma-27b-it-Q4_K_M.gguf \
    --local-dir ./models
    
python -m vllm.entrypoints.openai.api_server \
    --model ./models/translategemma-27b-it-Q4_K_M.gguf \
    --tokenizer google/translategemma-27b-it \
    --trust-remote-code

'LLM' 카테고리의 다른 글

LLM Inference Engines  (0) 2026.04.01
Edge SLM FineTune Engineering  (0) 2026.03.30
Fine-Tuning Llama 3.1 with Unsloth  (0) 2026.03.30
보안과 실무 효율을 동시에 잡는 SLM 도입 및 활용 전략  (0) 2026.03.22
LLM의 학습 데이터  (0) 2026.01.27