커뮤니티 대화 데이터를 RAG로! - Dify로 만든 나만의 데이터 분석봇 실험기

소개

안녕하세요! 초보맘들을 잇고 돕는 이유식 중심 육아 커뮤니티 리더, 지니K 입니다.

1년 넘게 운영해 온 커뮤니티에는 매일 수많은 대화와 정보가 오고 갑니다.
하지만 대부분의 대화는 시간이 지나면 묻혀버리고, 정작 필요한 순간에 찾기 어려운 경우가 많았어요.

그래서 이런 흘러가버리는 데이터를 어떻게든 잘 활용할 수 있는 방법이 없을까 고민하다가, 최근 주목받는 RAG(Retrieval-Augmented Generation) 기술에 관심을 가지게 되었고, 이번 모각스터디를 통해 Dify를 활용한 RAG 검색봇 제작 실험을 하게 되었습니다.

진행 방법

사용한 도구 및 흐름

  • Dify.ai: Knowledge base 기능과 Chatbot UI 사용

  • 텍스트 데이터 (Text/CSV): 지난 커뮤니티 분기 대화 내용 추출본

  • OpenAI API Key 연동: API 플랫폼에서 키값 생성 후 js 파일에 삽입

  • Claude Code: DifyBot.js 파일 생성 후 메신저봇R에 자동 배포

1) Dify 계정 생성 후 채팅 플로우 초안 만들기

2) Open AI API 설정

설정 > 모델 제공자 > 모델 선택 및 연결하기 > 설정 > API 등록 (Oraganization 입력 X)

한국 앱 스토어의 스크린 샷
한국 전자 상거래 웹 사이트의 스크린 샷

3) LLM 노드에서 AI모델 연결 후 시스템 프롬프트 입력

테스트용 헌법재판소 관련 PDF 문서를 지식(상단 메뉴)으로 등록 후,
시스템 프롬프트에 헌법 전문가 페르소나 부여.

4) 미리보기 테스트 진행

해당 파일에서 확인할 수 있는 헌법 관련 질문 던짐 → 워크플로우가 해당 파일을 인용한 답변 생성

한국어 텍스트가있는 웹 페이지의 스크린 샷

🚨 이슈: 테스트 목적으로 헌법재판과 전혀 관련 없는 '커뮤니티/이유식' 관련 질문도 던져봤는데, 응답하는 문제 발생 (But, 이에 대한 명확한 해결책은 찾지 못하고 다음 단계로 넘어감)

5) 커뮤니티 관련 데이터 지식 등록

대용량 커뮤니티 데이터 (25'Q1 대화내역.txt) 를 지식 파일로 이식

한국 웹 사이트의 스크린 샷

시스템 프롬프트에서 커뮤니티 데이터 분석가로 페르소나 변경
→ 커뮤니티 후기 요약 정보 성공적으로 생성!

한국 문자 메시지 앱의 스크린 샷

6) 메신저봇 내 DifyBot 테스트 진행

DifyBot.js 파일에 Dify 백엔드 API 삽입 후 Claude Code로 메신저봇에 코드 파일 자동 배포
이후, 봇테스트방에서 Dify 세션 연결 후 몇 번의 시행착오를 거쳐 답변 생성 성공!

한국어 문자 메시지의 스크린 샷

이로써, 처음으로 RAG 기술 활용한 챗봇 만들어 보는 짜릿한 경험! 🎉

에피소드와 시행착오들

  • 📦 파일 크기 초과 이슈

    • 처음 업로드하려던 커뮤니티 데이터 파일이 15MB 초과로 인해 업로드 실패

      → 가벼운 txt 파일을 올리거나, 파일을 청킹하여 나누는 방식으로 문제 해결 필요

  • 🔑 OpenAI API Key 등록 오류

    • Organization 칸에 내 회사명을 계속 입력했더니 오류 발생

      → 스터디장님의 팁으로 Organization 칸은 비워서 API 정상 등록 완료

  • 🔁 워크플로우 작동 이슈

    • 지식 페이지에 파일 등록했음에도, 챗봇 검색 동작 안 함

      • 지식 섹션이 아닌 워크플로우 내에서 '지식 검색' 노드 추가

  • 🤖 챗봇이 엉뚱한 질문에도 답함

    • '지식'에 넣은 파일과 무관한 질문에도 답변 생성

      → 이를 막기 위해 시스템 프롬프트를 반복 튜닝했으나 완전한 제어는 어려움

  • 💬 DifyBot.js 메신저 연동 중 400 오류

    • 봇 테스트 초기엔 연결 오류 발생

      → 시스템 프롬프트를 간결하게 바꾸고, 질문의 오타 수정 후 정상 작동 확인

결과와 배운 점

  • Supabase 대비 Dify의 접근성 & 편의성

    • 코드 작성 없이도 RAG 기반 검색 기능 구성 가능

  • 📁 파일 업로드 전 반드시 15MB 이하로 나누기

    • 청킹 또는 데이터 전처리가 꼭 필요

  • 🧠 시스템 프롬프트의 중요성

    • 최대한 간결하면서도 명확하게 역할을 지정하는 것이 핵심

  • 💬 메신저 연동을 통한 실사용 테스트 성공

    • 실시간 질의응답이 가능해지며 고객지원 챗봇으로도 활용 가능성 확인

  • 💡 Dify만 잘 써도 데이터 분석가 부럽지 않다!

    • 추출된 데이터를 RAG로 연결함으로써, 숨겨진 인사이트를 찾아내는 도구로 가능성 충분

2
1개의 답글

뉴스레터 무료 구독

👉 이 게시글도 읽어보세요