소개
시도하고자 했던 것과 그 이유를 알려주세요.
지난 주, zotero 의 논문 pdf를 모두 파싱하여 obsidian으로 요약하는 과정에서 이 데이터를 그대로 벡터DB로 만들어 RAG를 해보려 함.
진행 방법
어떤 도구를 사용했고, 어떻게 활용하셨나요?
Tip: 사용한 프롬프트 전문을 꼭 포함하고, 내용을 짧게 소개해 주세요.
Tip: 활용 이미지나 캡처 화면을 꼭 남겨주세요.
Tip: 코드 전문은 코드블록에 감싸서 작성해주세요. ( / 을 눌러 '코드 블록'을 선택)
지난 주 작성한 pdf에서 텍스트와 이미지를 추출하는 파이썬 코드에 그대로 chromaDB와 pinecone에 저장하도록 함.
이미지도 있었기 때문에 임베딩 모델은 'clip-ViT-B-32-multilingual-v1' 를 사용함.
512디멘전의 29,624개의 레코드가 생김
- 총 29,624개 벡터 저장됨
- 📝 텍스트 청크: 15,149개
- 🖼️ 이미지: 14,475개
- 709/711개 논문 성공적으로 처리 (99.7%)
💾 데이터 구성
- 각 논문당 평균:
- ~21개 텍스트 청크 (논문을 3000자씩 분할)
- ~20개 이미지 (그래프, 다이어그램, 표 등)
🔍 검색 가능한 내용
- 텍스트: 논문 본문, 초록, 방법론, 결과, 토론 등
- 이미지: 실험 결과 그래프, 분자 구조, pathway 다이어그램, 통계 차트 등
- Cross-modal: CLIP 모델로 텍스트↔이미지 교차 검색
n8n에서 question and answer chain으로 간단하게 연결 후 테스트
결과와 배운 점
배운 점과 나만의 꿀팁을 알려주세요.
과정 중에 어떤 시행착오를 겪었나요?
도움이 필요한 부분이 있나요?
앞으로의 계획이 있다면 들려주세요.
(내용 입력)
이미지를 임베딩해서 얻는 효과를 지금은 알 수 없음.
논문을 찾아서 대답하는 것인지, 그냥 대답하는 것인지 알 수 없을 경우가 많음.
아래 같은 경우 내가 원하는 논문을 찾아주기는 함.
도움 받은 글 (옵션)
참고한 지피터스 글이나 외부 사례를 알려주세요.
(내용 입력)