Latent Space

잠재 공간 : 딥러닝 모델이 원본 데이터의 핵심 특징만 압축하여 저차원으로 표현한 추상적인 공간

LLM

LLM Inference Engines

사유하는코드 2026. 4. 1. 00:34

 

LLM Inference Engines

  • 학습된 LLM 모델을 추론(inference) 실행하는 엔진
  • GPU 최적화
  • batching / KV cache 관리
엔진 속도 동시 요청 적용 OS
vLLM ⭐⭐⭐⭐ ⭐⭐⭐⭐ Linux, WSL2, Docker
Ollama ⭐⭐⭐ Linux, macOS, Windows
LM Studio ⭐⭐ Windows, macOS, Linux
llama.cpp ⭐⭐ Linux, macOS, Windows

 

 

LangChain / n8n


LLM Serving (vLLM / TGI / Ollama)


Model (GPT-OSS-20B / Qwen / Llama)


GPU

 

1. Ollama (가장 쉬움)

Windows 지원이 가장 좋습니다.

장점

  • 설치 매우 쉬움
  • GPU 자동 사용
  • OpenAI API 호환
  • LangChain 지원

설치

ollama run llama3
 

LangChain 연결

from langchain.chat_models import init_model

llm = init_model("ollama:llama3")
 

또는 OpenAI 방식

llm = init_model(
"openai:llama3",
base_url="http://localhost:11434/v1",
api_key="EMPTY"
)
 

단점

  • 대규모 batching 없음
  • vLLM보다 느림

2. LM Studio (GUI + API)

Windows에서 가장 인기 있는 로컬 LLM GUI입니다.

특징

  • GUI 모델 관리
  • OpenAI API 서버 제공
  • Windows 네이티브

API 서버 켜기

Developer → Local Server → Start
 

LangChain 연결

llm = init_model(
"openai:local-model",
base_url="http://localhost:1234/v1",
api_key="lm-studio"
)
 

장점

  • GUI 관리
  • 디버깅 쉬움

3. llama.cpp 서버

가장 가벼운 inference 엔진입니다.

서버 실행

./server -m model.gguf
 

LangChain

llm = init_model(
"openai:model",
base_url="http://localhost:8080/v1"
)
 

장점

  • CPU에서도 가능
  • 메모리 매우 적게 사용

'LLM' 카테고리의 다른 글

Gemma 4와 양자화모델  (0) 2026.04.07
Edge SLM FineTune Engineering  (0) 2026.03.30
Fine-Tuning Llama 3.1 with Unsloth  (0) 2026.03.30
보안과 실무 효율을 동시에 잡는 SLM 도입 및 활용 전략  (0) 2026.03.22
LLM의 학습 데이터  (0) 2026.01.27