박정기
박정기
🗡️ AI 레전드
🎖️ 마스터 파트너
🚀 SNS 챌린지 달성자

[1DAY N8N] N8N 시작하기 #4일차

N8이라는 단어가있는 검은 배경

이번 15기 AI 스터디에 앞서, 1DAY N8N,

즉 하루에 1개의 N8N 컬럼을 작성하고자 합니다.

지피터스 15기 문과생도 n8n 스터디 신청링크

HTTP 노드로 HTML 가져오기

오늘은 짧게 http 노드로 할 수 있는 정적 크롤링 하는 법에 대해서 알려드리려고 합니다.

node 검색에 http 라고 검색하시면 다음과 같이 나옵니다

다음에 어떻게됩니까?

이 노드를 선택하고 오늘은 전세게 무료 도서관인 구텐베르그에서 top100에 대한 데이터를 가져와보도록 하겠습니다.

https://gutenberg.org/browse/scores/top

위 사이트가 전세계 무료 전자 도서관이고,

올해 상위 100 권의 책 목록

이 값들을 제목과 링크를 가져오는 것 중에 제목만 가져오는 부분을 오늘 해보겠습니다.

HTTP 노드에서 GET을 하여 링크를 가져오면,

결과가 이렇게 나옵니다.

텍스트가 많은 웹 페이지의 스크린 샷

여기서 제목만 파싱을 해오면 되는데 이때 html 노드를 검색하여 Extract 하는 메소드를 선택합니다.

chatGPT o3-mini-high를 이용하여 html 결과를 넣고 옵션을 어떻게 넣어야 하는지 물어봅니다.

이렇게 옵션을 넣으라고 GPT가 알려줘서 넣어보

웹 사이트의 HTML 설정 스크린 샷

이렇게 제목을 가져올 수 있었습니다.

결론 : HTTP 노드로 정적 크롤링이 가능하고, HTML Extract로 원하는 데이터를 가져올 수 있다.

다음시간에 링크까지 가져올 수 있도록 하겠습니다. 그러면 N바!

1일차를 보고 싶으신 분들은 -> https://www.gpters.org/nocode/post/day-1-who-want-BcjXsCdW3KRQxp0/edit

3
1개의 답글

👉 이 게시글도 읽어보세요