[8기 랭체인] RAG


LLM에서는 모델의 학습세트에 포함되지 않은 사용자별 데이터가 필요

RAG: 외부테이터를 검색한 후 생성단계를 수행할때 LLM으로 전달

Document Loader

100가지가 넘는 다양한 소스로부터 문서로더를 제공

AirByte 및 비정형과 같은 다른 주요 공급자와의 통합 제공

한마디로 모든 유형의 위치와 모든 유형의 문서를 로드할 수 있는 통합기능


Document Transformer

검색을 위해 문서를 작은 청크로 잘라주는 등 변환 알고리즘과 특정문서 유형에 최적화된 로직 제공


Text Embedding Model

텍스트의 의미론적 의미를 캡처하여 유사한 텍스트의 다른 부분을 빠르고 효율적으로 찾을 수 있도록 함


vector store

임베딩의 효율적인 저장과 검색을 지원하는 데이터베이스를 위해, 50개 이상 다양한 벡터스토어와의 통합 제공


Retriever

데이터가 데이터베이스에 저장된 후에 데이터 검색

시맨틱 검색 지원

  • 상위 문서 리트리버: 상위 문서당 여러개의 임베딩을 생성하여 작은 청크 조회 가능 및 더 큰 컨텍스트 반환 가능

  • 셀프쿼리 리트리버: 쿼리에 있는 다른 메타데이터 필터로부터 쿼리의 의미론적 부분 파싱 가능

  • 앙상블 리트리버: 여러개의 다른소스, 여러개의 다른 알고리즘을 사용해 문서를 검색하고 싶을때 수행 가능

  • 그리고 인덱싱


indexing

모든 소스의 데이터를 벡터스토어로 동기화 해줌

  • 중복된 컨텐츠 작성 주의

  • 변경되지않은 컨텐츠 다시 작성 주의

  • 변경되지 않은 컨텐츠 임베딩 다시 계산 주의




조금더 열심히 해서 미니프로젝트 해보고싶었는데 아쉽게 끝난 8기입니다 ㅠ

그래도 다른분들 사례발표로 많이 배웠습니다. ❤️



4

(채용) 크리에이터, 마케터, AI 엔지니어

지피터스: 콘텐츠를 AI로 재가공 해 원소스 멀티유즈하는 스타트업

👉 이 게시글도 읽어보세요