논문으로 벡터db 만들어 n8n으로 RAG 해보기 1탄..

소개

시도하고자 했던 것과 그 이유를 알려주세요.

지난 주, zotero 의 논문 pdf를 모두 파싱하여 obsidian으로 요약하는 과정에서 이 데이터를 그대로 벡터DB로 만들어 RAG를 해보려 함.

진행 방법

어떤 도구를 사용했고, 어떻게 활용하셨나요?

Tip: 사용한 프롬프트 전문을 꼭 포함하고, 내용을 짧게 소개해 주세요.

Tip: 활용 이미지나 캡처 화면을 꼭 남겨주세요.

Tip: 코드 전문은 코드블록에 감싸서 작성해주세요. ( / 을 눌러 '코드 블록'을 선택)

  1. 지난 주 작성한 pdf에서 텍스트와 이미지를 추출하는 파이썬 코드에 그대로 chromaDB와 pinecone에 저장하도록 함.

  2. 이미지도 있었기 때문에 임베딩 모델은 'clip-ViT-B-32-multilingual-v1' 를 사용함.

  3. 512디멘전의 29,624개의 레코드가 생김

    - 총 29,624개 벡터 저장됨

    - 📝 텍스트 청크: 15,149개

    - 🖼️ 이미지: 14,475개

    - 709/711개 논문 성공적으로 처리 (99.7%)

    💾 데이터 구성

    - 각 논문당 평균:

    - ~21개 텍스트 청크 (논문을 3000자씩 분할)

    - ~20개 이미지 (그래프, 다이어그램, 표 등)

    🔍 검색 가능한 내용

    - 텍스트: 논문 본문, 초록, 방법론, 결과, 토론 등

    - 이미지: 실험 결과 그래프, 분자 구조, pathway 다이어그램, 통계 차트 등

    - Cross-modal: CLIP 모델로 텍스트↔이미지 교차 검색

    Google Analytics의 멀티 모델 종이 클립 스크린 샷
  4. n8n에서 question and answer chain으로 간단하게 연결 후 테스트

    제품 생성 과정을 보여주는 흐름도

결과와 배운 점

배운 점과 나만의 꿀팁을 알려주세요.

과정 중에 어떤 시행착오를 겪었나요?

도움이 필요한 부분이 있나요?

앞으로의 계획이 있다면 들려주세요.

(내용 입력)

  1. 이미지를 임베딩해서 얻는 효과를 지금은 알 수 없음.

  2. 논문을 찾아서 대답하는 것인지, 그냥 대답하는 것인지 알 수 없을 경우가 많음.

  3. 아래 같은 경우 내가 원하는 논문을 찾아주기는 함.

    한국 텍스트 편집기의 스크린 샷

도움 받은 글 (옵션)

참고한 지피터스 글이나 외부 사례를 알려주세요.

(내용 입력)

5
1개의 답글

뉴스레터 무료 구독

👉 이 게시글도 읽어보세요