Gemma 4와 양자화모델

LLM

Gemma 4와 양자화모델

사유하는코드 2026. 4. 7. 10:51

https://ai.google.dev/gemma/docs/core/model_card_4?hl=ko

Gemma 4 모델을 vLLM(버전 0.7 이상 권장)에 연결합니다. Gemma 4는 256K의 긴 컨텍스트 창과 멀티모달 기능을 지원하므로, 실행 시 관련 설정을 확인하는 것이 중요합니다.

vLLM에 연결하기

export HUGGING_FACE_HUB_TOKEN="your_token_here"

python -m vllm.entrypoints.openai.api_server \
    --model noctrex/gemma-4-26B-A4B-it-MXFP4_MOE-GGUF \
    --tokenizer google/gemma-4-26B-A4B-it \
    --trust-remote-code

# 모델 파일 다운로드 CLI

pip install huggingface_hub

huggingface-cli login

# 특정 GGUF 파일 하나만 다운로드 (예: 약 15.4GB 파일)
huggingface-cli download noctrex/gemma-4-26B-A4B-it-MXFP4_MOE-GGUF \
    gemma-4-26B-A4B-it-MXFP4_MOE.gguf \
    --local-dir ./my_gemma4_model
    
python -m vllm.entrypoints.openai.api_server \
    --model ./my_gemma4_model/gemma-4-26B-A4B-it-MXFP4_MOE.gguf \
    --tokenizer google/gemma-4-26B-A4B-it \
    --trust-remote-code

양자화모델사용하기

#허깅페이스 로그인 필요
#vLLM 실행 시 양자화하여 사용

python -m vllm.entrypoints.openai.api_server \
    --model google/translategemma-27b-it \
    --quantization fp8 \
    --max-model-len 2048 \
    --trust-remote-code

#GGUF 양자화 모델 다운로드하여 사용

huggingface-cli download bartowski/translategemma-27b-it-GGUF \
    translategemma-27b-it-Q4_K_M.gguf \
    --local-dir ./models
    
python -m vllm.entrypoints.openai.api_server \
    --model ./models/translategemma-27b-it-Q4_K_M.gguf \
    --tokenizer google/translategemma-27b-it \
    --trust-remote-code

저작자표시 (새창열림)

'LLM' 카테고리의 다른 글

LLM Inference Engines (0)	2026.04.01
Edge SLM FineTune Engineering (0)	2026.03.30
Fine-Tuning Llama 3.1 with Unsloth (0)	2026.03.30
보안과 실무 효율을 동시에 잡는 SLM 도입 및 활용 전략 (0)	2026.03.22
LLM의 학습 데이터 (0)	2026.01.27

현재글Gemma 4와 양자화모델

AI story 사유하는코드

- 사유(思惟): 대상을 두루 생각하는 일 - Master's degree in Data science

Today :
Yesterday :

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

AI story 사유하는코드

Gemma 4와 양자화모델

vLLM에 연결하기

양자화모델사용하기

'LLM' 카테고리의 다른 글

'LLM'의 다른글

티스토리툴바

Gemma 4와 양자화모델

vLLM에 연결하기

양자화모델사용하기

'LLM' 카테고리의 다른 글

'LLM'의 다른글

관련글

티스토리툴바