[태그:] vllm
-
LLM 서빙 관련 정리
📌 LLM 서빙 관련 핵심 정리 개요 LLM 서빙 도구 (MLC, CTranslate2, vLLM, TensorRT LLM 등)는 오픈소스 LLM 가중치 를 GPU/CPU/모바일 등 다양한 환경에서 고성능·저지연 으로 제공하기 위한 프레임워크. 폐쇄형 모델 (OpenAI GPT, Claude, Gemini 등)은 가중치 비공개 → 직접 서빙 불가능, API 기반 으로만 사용. Azure Op