Dify 지식 데이터 업데이트 자동화 워크플로우 구축

소개

Dify 채팅 플로우를 생성하면서 가장 중요한 부분이 지식 데이터를 생성하는 부분이라고 생각했습니다.
하지만 지식 데이터를 수동으로 등록하고 업데이트하는 과정이 많이 불편하다고 느꼈습니다.
그래서 이 과정을 자동화 작업을 통해 최신 데이터로 업데이트할 수 있다면 좋겠다는 생각을 하게 되어서 n8n 으로 자동화 작업을 진행해 보았습니다.

진행 내용

  1. 수집 대상 지식 데이터 : 서울특별시 행사 및 축제 정보

  2. 사용 도구 : n8n

  3. 진행 과정

    1. 서울특별시 홈페이지에서 행사 및 축제 정보 데이터 크롤링

    2. 데이터를 텍스트 데이터로 변환 처리

    3. Dify AI Knowledge API 를 연계하여 지식 데이터 문서 추가 및 업데이트

진행 방법

  1. Dify 에서 빈 지식 데이터(Seoul Infomation Knowledge) 생성 (API 를 통해서도 생성 가능)

    Dify 비어있는 지식 생성

  2. 지식 API 키 발급

    컴퓨터 화면 사진

  3. n8n 에서 자동화 Workflow 생성

    n8n Workflow

    1. 서울시 홈페이지 행사 및 축제 정보 게시판에서 pdf 데이터 수집

      한국어는 종이에 표시됩니다.

    2. pdf 파일 데이터를 text 형식으로 추출 (Extract from File 노드)

    3. Dify AI Knowledge API 를 호출하여 Seoul Infomation Knowledge 지식 데이터에 문서를 추가

      1. API 규격

        https://api.dify.ai/v1/datasets/{dataset_id}/document/create-by-text

        코드 편집기의 스크린 샷
  4. Dify 에 지식 데이터로 등록 상태 확인

  5. 채팅 플로우로 결과 확인

    한국어 텍스트가 포함 된 한국 앱 스크린 샷

결과와 배운점

  • 스케쥴링 작업으로 매월 업데이트되는 행사 정보를 문서로 자동 등록하여 최신 지식 데이터로 사용 가능해짐.

  • 원본 pdf 데이터가 표 형식이어서 텍스트 데이터로 변환한 후 채팅 결과에 다른 행사 데이터가 포함되는 경우가 확인되어 전처리 과정이나 청크 재설정 등의 추가 설정이 필요해 보임

  • 지식 데이터의 범위를 점차 늘려 가며 다양한 데이터를 제공할 수 있는 챗봇 구현이 가능할 것으로 판단됨

참고 자료

  • 서울시 주요 행사 계획 데이터

  • Dify AI Knowledge API 기술 문서

2
2개의 답글

뉴스레터 무료 구독

👉 이 게시글도 읽어보세요