YouTube에서 챗봇까지: 멘토봇 데이터 파이프라인 n8n 자동화 여정

1. 소개

YouTube 콘텐츠를 기반으로 하는 하이브리드 RAG 멘토 챗봇을 만들기 위해, 자막과 메타데이터를 자동으로 수집하고 이를 Supabase에 저장해 벡터 검색이 가능한 구조로 설계하려고 했습니다.

결론적으로 단순히 자막 정보만 가져오는 자동화가 아니라, 데이터 흐름 전체를 설계하는 중요한 경험이 되었습니다. DifyBot을 성공하고, 데이터 쌓기를 금방(!)하고 멘토 챗봇을 실험하고 싶었는데. n8n 도구를 사용하면서 시행착오가 많았습니다.

문제1) n8n 버전이 YouTube transcript 커스텀노드 미지원
- Apify API의 scraper 제공 기능 차이
  - youtube scraper : 메타데이터
  - youtube transcript scraper : 자막 전용
- Google API 로는 metadata, transcript scraper로는 자막 수집
문제 2) n8n에서 merge node 와 json 구조화 이슈
- 단순 append는 구조 정리를 안 해주기 때문에 code 노드로 JSON 정제 작업 필요
- n8n 버전이 combine 연관 옵션을 미지원
문제 3) 데이터가 쪼개져서 기록 됨
- 개행문자를 무시하고 줄바꿈 합치기 (join) 하는 작업이 필요
- summary 버전 만들 때 structured output parser 노드 사용함
- 자막 전체 텍스트 확보 후 → 요약 생성 → Supabase에 저장
문제 4) 벡터 저장 문제
- Supabase Vector Store와 연결을 시도했으나, embedding, metadata 필드 매핑 불완전
- n8n에서 다른 노드 활용 사용법

항목

현황

Supabase 저장

완료

챗봇 검색을 위한 Chunking

n8n or Python 예정

Embedding 및 Vector 저장

Supabase Vector Store 연결 실패

→ 다른 수단 전환 예정

DifyBot 에서 Supabase 검색

Dify API 활용 미정

자동화는 결국 작은 연결의 반복 💡