소개
Dify 채팅 플로우를 생성하면서 가장 중요한 부분이 지식 데이터를 생성하는 부분이라고 생각했습니다.
하지만 지식 데이터를 수동으로 등록하고 업데이트하는 과정이 많이 불편하다고 느꼈습니다.
그래서 이 과정을 자동화 작업을 통해 최신 데이터로 업데이트할 수 있다면 좋겠다는 생각을 하게 되어서 n8n 으로 자동화 작업을 진행해 보았습니다.
진행 내용
수집 대상 지식 데이터 : 서울특별시 행사 및 축제 정보
사용 도구 : n8n
진행 과정
서울특별시 홈페이지에서 행사 및 축제 정보 데이터 크롤링
데이터를 텍스트 데이터로 변환 처리
Dify AI Knowledge API 를 연계하여 지식 데이터 문서 추가 및 업데이트
진행 방법
Dify 에서 빈 지식 데이터(Seoul Infomation Knowledge) 생성 (API 를 통해서도 생성 가능)
지식 API 키 발급
n8n 에서 자동화 Workflow 생성
서울시 홈페이지 행사 및 축제 정보 게시판에서 pdf 데이터 수집
pdf 파일 데이터를 text 형식으로 추출 (Extract from File 노드)
Dify AI Knowledge API 를 호출하여 Seoul Infomation Knowledge 지식 데이터에 문서를 추가
Dify 에 지식 데이터로 등록 상태 확인
채팅 플로우로 결과 확인
결과와 배운점
스케쥴링 작업으로 매월 업데이트되는 행사 정보를 문서로 자동 등록하여 최신 지식 데이터로 사용 가능해짐.
원본 pdf 데이터가 표 형식이어서 텍스트 데이터로 변환한 후 채팅 결과에 다른 행사 데이터가 포함되는 경우가 확인되어 전처리 과정이나 청크 재설정 등의 추가 설정이 필요해 보임
지식 데이터의 범위를 점차 늘려 가며 다양한 데이터를 제공할 수 있는 챗봇 구현이 가능할 것으로 판단됨
참고 자료
서울시 주요 행사 계획 데이터
Dify AI Knowledge API 기술 문서