Llama2 임베딩 FastAPI 서비스

GitHub - Dicklesworthstone/llama_embeddings_fastapi_service
  • Llama2 임베딩 서버는 llama_cpp 및 langchain을 통해 다양한 LLM에서 텍스트 임베딩을 획득하는 과정을 최적화하며, 토큰 수준 임베딩, RAM 디스크 사용, 여러 유사도 측정 기능 등을 제공한다.

  • 서비스는 텍스트, PDF 파일을 제출하여 JSON 또는 ZIP 파일로 임베딩 결과를 받을 수 있으며, 캐싱, 고급 유사도 측정, 파일 처리 등의 기능을 갖추고 있다.

  • FastAPI 프레임워크 기반으로 구축되어 병렬 추론과 동시 요청 처리가 가능하며, Swagger UI와의 통합, 로깅, 다양한 모델과 측정 지원 등의 유연하고 사용자 친화적인 기능을 제공한다.

1

📚 모집 중인 AI 스터디