LLM에서는 모델의 학습세트에 포함되지 않은 사용자별 데이터가 필요
RAG: 외부테이터를 검색한 후 생성단계를 수행할때 LLM으로 전달
Document Loader
100가지가 넘는 다양한 소스로부터 문서로더를 제공
AirByte 및 비정형과 같은 다른 주요 공급자와의 통합 제공
한마디로 모든 유형의 위치와 모든 유형의 문서를 로드할 수 있는 통합기능
Document Transformer
검색을 위해 문서를 작은 청크로 잘라주는 등 변환 알고리 즘과 특정문서 유형에 최적화된 로직 제공
Text Embedding Model
텍스트의 의미론적 의미를 캡처하여 유사한 텍스트의 다른 부분을 빠르고 효율적으로 찾을 수 있도록 함
vector store
임베딩의 효율적인 저장과 검색을 지원하는 데이터베이스를 위해, 50개 이상 다양한 벡터스토어와의 통합 제공
Retriever
데이터가 데이터베이스에 저장된 후에 데이터 검색
시맨틱 검색 지원
상위 문서 리트리버: 상위 문서당 여러개의 임베딩을 생성하여 작은 청크 조회 가능 및 더 큰 컨텍스트 반환 가능
셀프쿼리 리트리버: 쿼리에 있는 다른 메타데이터 필터로부터 쿼리의 의미론적 부분 파싱 가능
앙상블 리트리버: 여러개의 다른소스, 여러개의 다른 알고리즘을 사용해 문서를 검색하고 싶을때 수행 가능
그리고 인덱싱
indexing
모든 소스의 데이터를 벡터스토어로 동기화 해줌
중복된 컨텐츠 작성 주의
변경되지않은 컨텐츠 다시 작성 주의
변경되지 않은 컨텐츠 임베딩 다시 계산 주의
조금더 열심히 해서 미니프로젝트 해보고싶었는데 아쉽게 끝난 8기입니다 ㅠ
그래도 다른분들 사례발표로 많이 배웠습니다. ❤️
끝