논문으로 만드는 RAG 챗봇 시도기.. 아쉬운 한 주..

소개

zotero의 논문으로 RAG 챗봇을 만드는 스터디. 저번주에 이어 이번엔 여러가지 시도를 해 보는 중입니다.

(내용 입력)

진행 방법

어떤 도구를 사용했고, 어떻게 활용하셨나요?

Tip: 사용한 프롬프트 전문을 꼭 포함하고, 내용을 짧게 소개해 주세요.

Tip: 활용 이미지나 캡처 화면을 꼭 남겨주세요.

Tip: 코드 전문은 코드블록에 감싸서 작성해주세요. ( / 을 눌러 '코드 블록'을 선택)

  1. 백터 DB 제작

    1. 지난 주 제작된 벡터DB는 PDF에서 3000자씩 끊어 512 차원 벡터를 1개 만듦.

      1. 벡터 길이에 따라 중간을 잘 못 읽는 경향이 있어서 1000자씩 끊고 200자씩 중복되게 청킹

      2. 이미지도 임베딩하고, 이미지와 테이블 캡션도 별도 벡터로..

한국 키보드 - 스크린 샷 썸네일
한국어 단어가있는 검은 색 화면
  1. 약 2배 이상 벡터의 숫자가 늘어남.

  2. 평가 데이터셋은 단답형 질문 답변 데이터셋으로 만듦.

브라우저에서 CSS 파일의 스크린 샷
  1. reranker 부착: hybrid RAG 등을 하고 싶었으나, 시간이 모자라서 일단 reranker를 붙임.

챗봇 생성 과정을 보여주는 흐름도
  1. 1000개 정도의 rank를 뽑아 reranking으로 300개 정도를 선정함.

    한국 텍스트 편집기의 스크린 샷
Adobe Adobe Adobe Adobe Adobe의 스크린 샷

결과와 배운 점

  1. 결국 검색이라서 데이터의 품질, 그리고 몇 개까지 검색할 지, 랭킹을 어떻게 매길 지가 결과에 큰 영향을 미침.

  2. 한글은 잘 안됨.

  3. 너무 안되서 hybrid RAG을 해보고 싶음.

  4. multimodal rag도 해보고 싶음.

  5. QA 셋을 만들다 보니.. 이 참에 sLM 파인튜닝도 해볼까 싶음..

도움 받은 글 (옵션)

참고한 지피터스 글이나 외부 사례를 알려주세요.

(내용 입력)

4
3개의 답글

👉 이 게시글도 읽어보세요