도시아재
도시아재
🏅 AI 마스터
🚀 SNS 챌린지 달성자

Selector 찾아서 특정 기사 MAKE로 가져오기(예: aljazeera.com)

😄 소개

19기 자동지식저장소 클래스의 김혜련 스터디장님이 진행하시는 19기 첫 OT에서 Insight를 얻고 다양한 뉴스 제공업체 중 원하는 언론의 특정 섹션 기사를 가져와 구글드라이브에 저장하여, 내용을 가공, 배포 등을 해보려고 시도 했습니다.

미션 시나리오 flow

프로세스의 다양한 단계를 보여주는 다이어그램

완성한 시나리오의 흐름을 이해한 후 OT때 결과를 보고, ai times와 화면구성이 유사한 화면구성을 가진 다른 미디어 매체인 중동지역 major media인 'https://www.aljazeera.com'에서 특정 섹션의 뉴스를 같은 방법으로 추출하고 GD에 파일(TXT)로 저장하도록 해보았다.

해당 홈페이지: https://www.aljazeera.com

알자지라 홈페이지 스크린샷

😄 진행 방법

사용한 도구는 MAKE, chatGPT, Comet browser 등 사용.

( openAI API 발급과 Google OAuth 인증 진행 내용은 여기서는 생략합니다.)

우선, make.com 에 접속하여 뉴스 제공업체의 특정 섹션의 기사를 가져오기 위해 처음으로 HTTP 모듈을 설정한다. 원하는 뉴스 제공업체의 홈페이지 URL를 입력한다. Mothed 부분은 'GET' ,Parse response 부분은 'Yes'로 설정

WordPress의 HTML 설정 스크린샷

가져온 DATA 중 특정 섹션에 기사만 가공하기 위해 chatGPT 모듈을 추가하고 설계한 프롬프트를입력한다. (SYSTEM / USER )

프롬프트 설계는 샘호트만님의 챗봇을 이용하거나, 스터디장님이 제공한 프롬프트로 우선 입력한다. (익숙해지만 자신만의 형식을 위한 프롬프트 설계가 필요.)

여기서 가장 중요한 것은 이 작업의 핵심 내용으로 홈페이지의 특정 주소 즉 'selector'를 찾는 일이다. 크롬브라우저에서 F12 버튼 누르고 해당 섹션부분을 찾는 노가다 작업으로 진행할 수 있지만, 잠시 잔머리?를 좀 사용하여 즉흥적으로 아이디어를 활용해 보았다.

comet 브라우저의 ai agent기능을 통해 원하는 의도를 티키타카 하면서 프롬프트 창에 selector를 찾아달라고 해서 좀 더 쉽게 찾을 수 있었다. (이 부분은 각자 꼭 해보길 권장드린다. 저만의 팁!)

"Perplexcity 의 Comet 에서 프롬프트 예시"

한국어로 된 웹페이지 스크린샷

chatGPT 모듈 추가 및 프롬프트 입력(모델명 소개는 생략)

Google Docs의 작업 목록을 보여주는 화면의 스크린샷

그 다음은 현 DATA를 이제 하나하나 쌓아서 정리를 해야 하는 과정이라. Iterator 모듈을 통해서 10개 묶음으로 들어온 링크를 1개씩 갈라주는 일을 해야 한다. (Array Aggregator의 반대개념)

녹색과 보라색 배경의 웹페이지 스크린샷

slashpage 참조

한국어 한국어 한국어 한국어 한국어 한국어 한국어 한국어


Iterator 의 out 예시:

항목 목록을 보여주는 화면의 스크린샷

헌데, 특이 하게 link 부분의 공통주소가 빠져있다.. 이 링크를 그대로 가져오면 에러가 발생하므로 다음 모듈에서 정상적인 링크가 나오도록 수정가능하다.

다음은 본문 내용을 가져오는 절차라 다시 한번 HTTP 모듈을 사용하여 배치한다.

웹사이트의 http 설정 스크린샷

항상 모듈을 맵핑하기 전에는 전 모듈에 데이타가 어떻게 들어오는 지 살펴볼 필요가 있다.

다음은 기사 내용을 요약하고 정리하는 과정이 필요하며, 이 부분도 chatGPT Generate a complication 모듈을 선택하고 제공된 프롬프트를 입력한다.

프로세스 흐름을 보여주는 화면의 스크린샷

마지막으로 Google Drive 에 저장하는 절차가 필요하다.

(인증 절차가 조금 까다로우나 스터디장님의 영상 참조하여 발급 가능)

GD에 원하는 폴더 설정하고, 파일형식은 날짜+기사 제목 조합으로 설정

구글 드라이브 페이지 스크린샷

저장 하고 RUN ONCE 버튼 실행

섹션의 링크 기사가 많을 경우, 섹션의 전체 기사를 못 들고 오는 경우가 발생하여 sleep 모듈 하나 추가하여 원하는 섹션 기사 모두 가져오도록 함.(10초 전후)

서로 다른 색상이 있는 일련의 원

GD 에 저장된 결과물과 내용

사람 목록을 보여주는 웹페이지 스크린샷

파일은 구글독스로 선택 저장 가능, 여기에는 TXT 파일로 저장함

한국어 페이지 스크린샷

결과물 활용 사례

파일은 직접 제작한 GEM을 통해 티스토리에 포스팅 해 봄

https://aishinhwa.tistory.com/33

😄 결과와 배운 점

스터디장님의 정성어린 준비로 직접 하나하나 모듈을 설정하고 전체 시나리오를 완성하였고, 완성 후 응용하여 다른 홈페이지에서 직접 개발자모드에서 selector를 직접 찾아보고 이후 perplexity agent기능을 활용하여 좀 더 편하게 selector를 찾아 적용하여 원하는 결과물을 생성하여 앞으로 관심있는 뉴스 제공업체의 특정 섹션부분을 저장 및 가공 할 수 있게 되었다.

  • 과정 중에 어떤 시행착오를 겪었나요?

링크에 공통 홈페이지 주소가 없어 에러가 발생하여 잠시 당황했으나HTTP 모듈의 링크 포맷을 수동으로 수정하여 문제를 해결하였다.

  • 도움이 필요한 부분이 있나요?

원하는 프롬프트를 설계하기 위한 연습이 필요하고, 샘호트만님의 챗봇 등을 활용하여 적용하면서 수집된 데이타를 나의 용도에 맞게 가공하려면 나만의 프롬프트를 만드는 능력이 요구될 것 같다.

  • 앞으로의 계획이 있다면 들려주세요.

기존 시나리오를 좀 더 확장하여 gd에 저장만 하는 것이 아니라 sns 포스팅, youtube 쇼츠 포스팅까지 확장 가능해 볼 수 있을 것 같다.

또한 특정 목적을 가지고 시나리오를 기획하고 실제 설계해 보면서 자신만의 데이타를 수집하고 가공하여 컨텐츠 제작 및 보급을 통해 수익화를 이루고 싶다.(부동산 분야로 확장)

😄 도움 받은 글 (옵션)

  • 스터디장님의 ★ 자동지식저장소 스터디 공지 및 자체 DB

  • 샘호트만님의 유튜브 강의

4
2개의 답글

뉴스레터 무료 구독

👉 이 게시글도 읽어보세요