[ 17기 n8n 실전예제 ] RSS Read 안돼? 그까이꺼, 웹크롤링으로 부딪히면 되지 (절반의 성공)

소개

정부지원사업에 관심이 많은 주변 업체들이 많아서, 관련 공고가 뜨자마자 빠르게 공유하고 싶다는 니즈가 있었습니다. 문제는 이런 공고들이 접수 시작일에 비해 너무 늦게 발견되는 경우가 많다는 것!

그래서 저는 "자동으로 이런 공고를 크롤링해서 알림까지 가게 만들 수 없을까?" 하는 생각으로 n8n을 배우며 도전해보게 되었어요.

사용도구

RSS 방식 시도 → 실패 😓
- 처음엔 편하게 RSS 방식으로 정보를 받아보려 했으나...
- RSS를 지원하는 정부 사이트는 매우 드뭅니다 (기업마당도 X)
웹크롤링 직접 시도 🥲
- 결국 웹크롤링 직접 해보기로 결정
- ChatGPT의 도움을 받아 크롤링 노드를 구성하며 실험
n8n 워크플로우 기본 구조
처음엔 편하게 RSS 방식으로 정보를 받아보려 했으나...
- 처음에 홈페이지의 조건식으로 트리거를 걸 수 없나 고민
  아..어렵네.. 그냥 다 가져와서 나중에 AI Agent 붙여서 대화(?) 해결하자!!
- 일정 주기로 HTTP Request → HTML 파싱 → Google Sheet 저장
- 문제를 해결해 보자.
  - 1페이지 제한 → 페이징 처리 미비로 최신 공고 첫 page 자료만 수집됨
  - 중복 저장 → 중복 제거 로직이 없어 반복 실행 시 같은 공고가 시트에 계속 쌓임

[현재 워크플로우 구조]
Schedule Trigger → HTTP Request (크롤링)
→ HTML Extract → Google Sheet 저장
→ 추후: AI Agent 검색 기능 추가 예정

웹크롤링 자체는 성공! 🎉
하지만 실사용에는 여러 개선이 필요하다는 걸 알게 됐어요:
- 페이징 처리 필요 (다수 공고 대비)
- 중복 제거 로직 필요 (Google Sheet 내 조건식 또는 n8n 내부)
- 조건부 트리거는 현재 구조로는 어려워서, 나중에 AI 필터를 붙이기로

👉 가장 큰 배움은 "처음부터 완벽할 필요는 없다"는 것이었습니다.
기능 단위로 쪼개고, ChatGPT를 파트너 삼아 한 단계씩 전진하기로 마음먹었어요 💪