LLM

LLM Inference Engines

사유하는코드 2026. 4. 1. 00:34

LLM Inference Engines

학습된 LLM 모델을 추론(inference) 실행하는 엔진
GPU 최적화
batching / KV cache 관리

엔진	속도	동시 요청	적용 OS
vLLM	⭐⭐⭐⭐	⭐⭐⭐⭐	Linux, WSL2, Docker
Ollama	⭐⭐⭐	⭐	Linux, macOS, Windows
LM Studio	⭐⭐	⭐	Windows, macOS, Linux
llama.cpp	⭐⭐	⭐	Linux, macOS, Windows

LangChain / n8n
│
▼
LLM Serving (vLLM / TGI / Ollama)
│
▼
Model (GPT-OSS-20B / Qwen / Llama)
│
▼
GPU

1. Ollama (가장 쉬움)

Windows 지원이 가장 좋습니다.

장점

설치 매우 쉬움
GPU 자동 사용
OpenAI API 호환
LangChain 지원

설치

ollama run llama3

LangChain 연결

from langchain.chat_models import init_model

llm = init_model("ollama:llama3")

또는 OpenAI 방식

llm = init_model(
 "openai:llama3",
 base_url="http://localhost:11434/v1",
 api_key="EMPTY"
)

단점

대규모 batching 없음
vLLM보다 느림

2. LM Studio (GUI + API)

Windows에서 가장 인기 있는 로컬 LLM GUI입니다.

특징

GUI 모델 관리
OpenAI API 서버 제공
Windows 네이티브

API 서버 켜기

Developer → Local Server → Start

LangChain 연결

llm = init_model(
 "openai:local-model",
 base_url="http://localhost:1234/v1",
 api_key="lm-studio"
)

장점

GUI 관리
디버깅 쉬움

3. llama.cpp 서버

가장 가벼운 inference 엔진입니다.

서버 실행

./server -m model.gguf

LangChain

llm = init_model(
 "openai:model",
 base_url="http://localhost:8080/v1"
)

장점

CPU에서도 가능
메모리 매우 적게 사용

저작자표시 (새창열림)

'LLM' 카테고리의 다른 글

Gemma 4와 양자화모델 (0)	2026.04.07
Edge SLM FineTune Engineering (0)	2026.03.30
Fine-Tuning Llama 3.1 with Unsloth (0)	2026.03.30
보안과 실무 효율을 동시에 잡는 SLM 도입 및 활용 전략 (0)	2026.03.22
LLM의 학습 데이터 (0)	2026.01.27

현재글LLM Inference Engines

AI story 사유하는코드

- 사유(思惟): 대상을 두루 생각하는 일 - Master's degree in Data science

Today :
Yesterday :

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

AI story 사유하는코드

LLM Inference Engines

1. Ollama (가장 쉬움)

2. LM Studio (GUI + API)

3. llama.cpp 서버

'LLM' 카테고리의 다른 글

'LLM'의 다른글

티스토리툴바

LLM Inference Engines

1. Ollama (가장 쉬움)

2. LM Studio (GUI + API)

3. llama.cpp 서버

'LLM' 카테고리의 다른 글

'LLM'의 다른글

관련글

티스토리툴바