Llama2 임베딩 FastAPI 서비스

Llama2 임베딩 서버는 llama_cpp 및 langchain을 통해 다양한 LLM에서 텍스트 임베딩을 획득하는 과정을 최적화하며, 토큰 수준 임베딩, RAM 디스크 사용, 여러 유사도 측정 기능 등을 제공한다.
서비스는 텍스트, PDF 파일을 제출하여 JSON 또는 ZIP 파일로 임베딩 결과를 받을 수 있으며, 캐싱, 고급 유사도 측정, 파일 처리 등의 기능을 갖추고 있다.
FastAPI 프레임워크 기반으로 구축되어 병렬 추론과 동시 요청 처리가 가능하며, Swagger UI와의 통합, 로깅, 다양한 모델과 측정 지원 등의 유연하고 사용자 친화적인 기능을 제공한다.