LLM Inference Engines
- 학습된 LLM 모델을 추론(inference) 실행하는 엔진
- GPU 최적화
- batching / KV cache 관리
| 엔진 | 속도 | 동시 요청 | 적용 OS |
| vLLM | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | Linux, WSL2, Docker |
| Ollama | ⭐⭐⭐ | ⭐ | Linux, macOS, Windows |
| LM Studio | ⭐⭐ | ⭐ | Windows, macOS, Linux |
| llama.cpp | ⭐⭐ | ⭐ | Linux, macOS, Windows |
LangChain / n8n
│
▼
LLM Serving (vLLM / TGI / Ollama)
│
▼
Model (GPT-OSS-20B / Qwen / Llama)
│
▼
GPU
1. Ollama (가장 쉬움)
Windows 지원이 가장 좋습니다.
장점
- 설치 매우 쉬움
- GPU 자동 사용
- OpenAI API 호환
- LangChain 지원
설치
ollama run llama3
LangChain 연결
from langchain.chat_models import init_model
llm = init_model("ollama:llama3")
llm = init_model("ollama:llama3")
또는 OpenAI 방식
llm = init_model(
"openai:llama3",
base_url="http://localhost:11434/v1",
api_key="EMPTY"
)
"openai:llama3",
base_url="http://localhost:11434/v1",
api_key="EMPTY"
)
단점
- 대규모 batching 없음
- vLLM보다 느림
2. LM Studio (GUI + API)
Windows에서 가장 인기 있는 로컬 LLM GUI입니다.
특징
- GUI 모델 관리
- OpenAI API 서버 제공
- Windows 네이티브
API 서버 켜기
Developer → Local Server → Start
LangChain 연결
llm = init_model(
"openai:local-model",
base_url="http://localhost:1234/v1",
api_key="lm-studio"
)
"openai:local-model",
base_url="http://localhost:1234/v1",
api_key="lm-studio"
)
장점
- GUI 관리
- 디버깅 쉬움
3. llama.cpp 서버
가장 가벼운 inference 엔진입니다.
서버 실행
./server -m model.gguf
LangChain
llm = init_model(
"openai:model",
base_url="http://localhost:8080/v1"
)
"openai:model",
base_url="http://localhost:8080/v1"
)
장점
- CPU에서도 가능
- 메모리 매우 적게 사용
'LLM' 카테고리의 다른 글
| Gemma 4와 양자화모델 (0) | 2026.04.07 |
|---|---|
| Edge SLM FineTune Engineering (0) | 2026.03.30 |
| Fine-Tuning Llama 3.1 with Unsloth (0) | 2026.03.30 |
| 보안과 실무 효율을 동시에 잡는 SLM 도입 및 활용 전략 (0) | 2026.03.22 |
| LLM의 학습 데이터 (0) | 2026.01.27 |