박승현
박승현
🏅 AI 마스터
🔬 임팩트 찐친
🎨 미드저니 찐친

dify를 활용한 개인 기록 검색 RAG 도전

소개

장차 RAG를 활용하여 의무기록에 유의미한 인사이트를 도출하는 체계를 만들고 싶습니다.

일단 실제 데이터를 활용하는 것은 개인정보 위반 소지가 있기 때문에 공개해도 상관없는 제 개인 일기 데이터를 토대로 테스트 플로우를 만들어보았습니다.

진행 방법

  1. 첫번째 관문은 지식 입력이었습니다. dify를 써본적이 있는 분들은 다들 아시지만 파일을 하나 하나 올려야 합니다. 올려야 하는 파일이 대량이라면 이것만으로도 시간이 많이 걸리지요.

    저는 capacities라는 노트앱을 씁니다. 여기서 일기들을 내보내고 파일을 살펴보니 500개가 넘었습니다. 500개를 하나하나 넣으려면...2개 정도 올려보다가 바로 이건 아닌 것 같아서 중단했습니다.

지피티에게 물어보니 이런저런 방법을 알려주는데 좀 갈구니 zip파일은 안된다네요. dify 안내에도 zip파일은 가능한 확장자에 없었습니다. 그러면 api 활용 일괄 업로드인데...파이썬 스크립트로 어쩌고...

하려면 할 수 있습니다. 어차피 클로드 코드에게 시킬거라 하면 하는데요. 더 간단한 방법을 생각했습니다.

어차피 모든 파일이 마크다운 파일이라서요. 클로드코드에게 알아서 그냥 하나의 마크다운 파일로 합쳐달라고 합니다. 왔다갔다 하더니 알아서 잘 합쳐줬습니다.

539개의 파일을 하나로 합쳐서 올렸습니다. 향후 다른 데이터를 지식으로 입력해야할 때는 파이썬으로 코딩 해야할 것 같지만 지금은 여기까지만 하고 넘어갑니다.

한국의 흐름도 스크린 샷

플로우는 매우 간단한 플로우입니다. 이제 다듬어야 할 것 같습니다.

일단 성격을 물어봤는데 뭔가 말하는데 맞나 싶기도 한데 대충 누구한테나 들어맞을 수 있는 두루뭉술한 분석이라 이게 맞나 하는 의심이 듭니다.

한국어 문자 메시��지의 스크린 샷

역시는 역시네요. 저는 james라는 친구가 없습니다. 25년의 일기를 재검토했지만 이런 일은 존재하지 않습니다. 할루시네이션이었네요. 해결해야겠죠?

gpt에게 물어보니 다듬는 방법을 알려줍니다.

이걸 토대로 개선해봐야겠죠?하지만 시간이 없어서 글은 여기까지 쓰겠습니다. 변명이지만 요즘 바이브 코딩으로 만든 서비스 하나를 개선 중이라 dify에 투자할 시간이 별로 없네요. 뭔가 스터디에 참여하면 그래도 좀 더 동기부여가 되서 시간을 쪼갤 수 있을 것 같았는데 그렇지는 않은 것 같습니다. 다음주까지 조금씩 진도를 나가보겠습니다.

결과와 배운 점

할려면 하는데 역시 시간이...

1
1개의 답글

뉴스레터 무료 구독

👉 이 게시글도 읽어보세요