Ollama
로컬 환경에서 경량 언어 모델을 간편하게 구동하고 OpenAI 호환 API 인터페이스를 제공하는 런타임 소프트웨어입니다.
오픈모델 실행을 한 줄 명령으로 만들면서 로컬 LLM 진입장벽이 사실상 사라졌기 때문이다.
Ollama는 프로토타입 단계에는 최적이지만 production serving 런타임은 아니다.
Ollama로 잘 돌아간다고 vLLM 없이 그대로 production 트래픽을 받기 시작하는 것.
Ollama는 로컬 LLM의 IDE다 — 실험·prototyping은 여기서, serving은 다른 런타임에서.