OpenClaw + RAG 클라우드 올인원 VPS 구성해보기 [미니사례]

소개

이번에는 OpenClaw와 RAG 구성을 한 서버에서 굴리는 올인원 VPS 구성을 정리해봤다.

핵심은 GPU가 없어도 어디까지 가능한지, 그리고 월 20달러 이하 예산에서 어떤 선택이 현실적인지 판단 기준을 잡는 것이었다.

진행 방법

먼저 예산 기준에서 GPU VPS는 사실상 제외하고 CPU 기반 추론과 API 하이브리드 방식으로 나눠서 봤다.

  • 전략 A: VPS에서 Ollama와 경량 모델(3B~7B) 직접 실행

  • 전략 B: VPS는 오케스트레이션만 맡기고 LLM은 외부 API 사용

RAG와 벡터DB는 CPU로 충분하고, 실제 병목은 추론 속도라는 점을 먼저 정리했다.

추천 VPS도 3가지로 압축했다.

  • Hetzner CX22: 가장 저렴하고 API 하이브리드 구성에 적합

  • Raff KVM2: 8GB RAM으로 7B급 로컬 추론까지 노려볼 수 있음

  • Hostinger VPS S: Open WebUI 가이드와 원클릭 배포 지원이 강점

구성은 OpenClaw를 오케스트레이터로 두고, Ollama를 로컬 추론 엔진으로 연결하고, Open WebUI와 Qdrant를 함께 올리는 형태로 잡았다.

  • OpenClaw: 장치 제어, Skills, LLM 연결

  • Ollama: phi3 mini, tinyllama, mistral 7b q4 같은 경량 모델 실행

  • Open WebUI: 채팅 UI

  • Qdrant: RAG용 벡터DB

즉 Docker Compose 하나로 전체 스택을 띄우는 그림이 가장 현실적이라고 봤다.

결과와 배운 점

이번에 정리하면서 확실히 알게 된 건 월 20달러 이하에서는 GPU보다 CPU + 경량 모델 또는 API 하이브리드 전략이 훨씬 현실적이라는 점이다.

또 RAG와 벡터DB 자체는 크게 무겁지 않아서, 실제 비용과 체감 성능을 가르는 건 LLM 추론 방식이라는 것도 명확해졌다.

정리해보면 7B 이하 로컬 추론이 목표면 Raff KVM2가 낫고, OpenAI나 Claude API를 두뇌로 쓰면서 OpenClaw를 오케스트레이터로만 운영할 거면 Hetzner CX22가 가장 가성비가 좋았다.

그리고 벡터DB는 ChromaDB보다 Qdrant가 더 가볍고 운영성이 좋다는 점도 체크했다.

앞으로의 계획

다음 단계에서는 실제로 Docker Compose 파일을 만들어 OpenClaw, Ollama, Open WebUI, Qdrant를 한 번에 띄워보고, CPU 환경에서 응답 속도와 메모리 사용량을 직접 비교해볼 생각이다.

또 API 하이브리드 구성과 로컬 경량 모델 구성을 각각 테스트해서 비용 대비 체감 성능 차이도 확인해보고 싶다.

2
2개의 답글

뉴스레터 무료 구독

👉 이 게시글도 읽어보세요