박승현
박승현
🏅 AI 마스터
🔬 임팩트 찐친
🎨 미드저니 찐친

n8n으로 약물 중독의 치료 웹페이지 크롤링 + 요약 + 스프레드시트 저장까지!

먼저 저도 은철님의 개발자F의 사례 게시글 만들기 로 사례글을 작성했습니다. 사례글 작성의 신세계네요.

소개해 주신 윤누리 님에게도 감사.

소개

사실 지난주 과제 덜 만들어서 마저 만들었습니다. 전체적인 워크플로우는 모두 구현되어 있었고 디테일을 채워 넣기만 하면 되는 거여서요. 하지만 그 디테일을 채우는 과정이 바로바로 되진 않았습니다.

https://www.gpters.org/nocode/post/yagmul-jungdog-ciryo-jeongbo-saiteureul-n8neul-hwalyonghaeseo-keurolring-dsooeHvcqFEauiu

이 글의 후속편입니다.

중독 치료에 관심을 갖고 관련 정보를 찾던 중, 유용한 콘텐츠가 가득한 한 해외 웹사이트를 발견했습니다. 하지만 콘텐츠가 모두 영어로 되어 있어 접근이 쉽지 않았고, 데이터를 수작업으로 정리하기에는 양이 너무 많았어요.

그래서 n8n을 활용해 웹 크롤링부터 요약, 스프레드시트 기록까지 전부 자동화하는 워크플로우를 만들어보기로 했습니다 💡

진행 방법

사용 도구는 다음과 같습니다:

  • 🔁 n8n

  • 🧠 ChatGPT & Claude (LLM 모델)

  • 📄 Google Sheets

워크플로우의 핵심 단계는 다음과 같아요:

  1. 시작 페이지 입력
    사용자가 시작할 웹페이지의 URL을 입력

  2. 전체 article 링크 수집
    페이지 내 모든 article 요소에서 제목과 링크 크롤링

  3. 각 article 상세 크롤링
    개별 링크에 대해 다시 HTTP 요청 및 HTML 추출 → 콘텐츠 요약

  4. LLM 분석
    OpenAI/Claude를 이용해 아래 내용 추출

    • 제목

    • 콘텐츠 요약

    • 핵심 키워드

    • 타겟 독자

  5. 스프레드시트 기록
    정리된 내용을 Google Sheets에 자동 입력

사운드 시스템의 다른 단계를 보여주는 다이어그램

이건 완성된 워크플로우입니다. 지난번에 merge 노드를 어떻게 써보려고 했는데 일단 직렬 연결로 결과를 얻어보기로 하고 안쓰고 그냥 직렬 연결 했습니다. 보기엔 좀 거칠지만 잘 작동하니까...이번에 Edit field node로 값을 명확하게 하는게 왜 필요한지 배운 것 같습니다. 뭔가 이것저것 노드를 쓰기 시작하면서 그냥 드래그로 가져와도 값이 출력이 안되는 경우들이 있더라구요. 꽤 고생했습니다.

한국 텍스트가있는 스프레드 시트의 스크린 샷

스프레드시트에는 이렇게 기록되었습니다. 하고 보니 데이터가 1087개였군요. 각 글 안에 ppt 슬라이드라던지 영상이라던지 많지만 그걸 한글로 번역까지 해서 어딘가에 올리는 건 너무 무모한 것 같아 짤리긴 했지만 마지막에 원문의 링크를 추가해서 필요하면 직접 가서 보도록 했습니다.

Adobe Flash Player의 한국 버전 스크린 샷

어디에 게시할 것인가, 그리고 어떻게 보기 좋게 다듬을까가 문제였는데요. 지금 MCP가 핫하고 저도 일단 그걸로 넘어가야할 상황이라 제가 예전에 대충 만들고 방치한 사이트에 스프레드시트 자료 그대로 일단 게시해두었습니다. 사실 보기가 너무 불편해서 이걸 누구에게 소개하기도 참 그런데...일단 데이터가 있으니 어떻게 접근성 있게 꾸밀지는 차차 고민해봐야겠습니다.

혹시 한번 들어가서 무슨 데이터인지 보고 싶으시다면 https://www.mayakhub.com/

링크로 들어가서 보시면 됩니다. 자료 양이 너무 많아서 이걸 활용하려면 결국 한번 더 AI로 데이터를 가공하는 과정이 필요할 것 같습니다.

결과와 배운 점

  • 👊 수작업이었다면 엄두도 못 낼 일을 자동화로 처리할 수 있었어요.

  • 🕰️ 시간이 꽤 걸리긴 하지만, 도전해볼 만한 가치 있는 공부였고,

  • 🤖 LLM의 특성을 파악해 적절히 활용하는 것이 중요하다는 것도 깨달았습니다.

    • Claude는 문맥 기반 정리나 방향 제시에 강점

    • ChatGPT는 세부 구조화, 코드 정리에 강점

앞으로는 여러 언어권 사이트에도 이 자동화 워크플로우를 확장해보고 싶습니다 💪

내용 추가

웹 응용 프로그램의 스크린 샷

이번 주 과제이며 요즘 핫한 MCP도 해봤습니다. 이걸 활용한 워크플로우까지는 아직 못짜봤습니다.

5
1개의 답글

👉 이 게시글도 읽어보세요