https://ai.google.dev/gemma/docs/core/model_card_4?hl=ko
Gemma 4 모델을 vLLM(버전 0.7 이상 권장)에 연결합니다. Gemma 4는 256K의 긴 컨텍스트 창과 멀티모달 기능을 지원하므로, 실행 시 관련 설정을 확인하는 것이 중요합니다.

vLLM에 연결하기
export HUGGING_FACE_HUB_TOKEN="your_token_here"
python -m vllm.entrypoints.openai.api_server \
--model noctrex/gemma-4-26B-A4B-it-MXFP4_MOE-GGUF \
--tokenizer google/gemma-4-26B-A4B-it \
--trust-remote-code
# 모델 파일 다운로드 CLI
pip install huggingface_hub
huggingface-cli login
# 특정 GGUF 파일 하나만 다운로드 (예: 약 15.4GB 파일)
huggingface-cli download noctrex/gemma-4-26B-A4B-it-MXFP4_MOE-GGUF \
gemma-4-26B-A4B-it-MXFP4_MOE.gguf \
--local-dir ./my_gemma4_model
python -m vllm.entrypoints.openai.api_server \
--model ./my_gemma4_model/gemma-4-26B-A4B-it-MXFP4_MOE.gguf \
--tokenizer google/gemma-4-26B-A4B-it \
--trust-remote-code
양자화모델사용하기
#허깅페이스 로그인 필요
#vLLM 실행 시 양자화하여 사용
python -m vllm.entrypoints.openai.api_server \
--model google/translategemma-27b-it \
--quantization fp8 \
--max-model-len 2048 \
--trust-remote-code
#GGUF 양자화 모델 다운로드하여 사용
huggingface-cli download bartowski/translategemma-27b-it-GGUF \
translategemma-27b-it-Q4_K_M.gguf \
--local-dir ./models
python -m vllm.entrypoints.openai.api_server \
--model ./models/translategemma-27b-it-Q4_K_M.gguf \
--tokenizer google/translategemma-27b-it \
--trust-remote-code'LLM' 카테고리의 다른 글
| LLM Inference Engines (0) | 2026.04.01 |
|---|---|
| Edge SLM FineTune Engineering (0) | 2026.03.30 |
| Fine-Tuning Llama 3.1 with Unsloth (0) | 2026.03.30 |
| 보안과 실무 효율을 동시에 잡는 SLM 도입 및 활용 전략 (0) | 2026.03.22 |
| LLM의 학습 데이터 (0) | 2026.01.27 |