네이버 뉴스 언론사별 TOP5 랭킹 자동 수집 & 키워드 트렌드 정리하기

소개

블로그도 하고 싶고, 요즘 뉴스도 잘 챙겨보지 않아서 트렌드 파악이 필요하다는 생각이 들었습니다. 그래서 네이버 뉴스의 언론사별 랭킹 뉴스를 기반으로, 하루 두 번(오전/오후) 자동으로 TOP5 헤드라인을 정리하고, 여러 언론사에서 동시에 상위권을 차지하는 공통 키워드와 헤드라인을 추출하는 작업을 시작했습니다.

1주차 작업을 이제야 시작하는 느림보 거북이이지만… 그래도 꾸준히 하겠습니다🐢 이런저런 변명을 붙이자면 집안 잔치 및 연이은 야근 등으로 그동안 아무것도 하지 못했어요ㅠㅠ

진행 방법

🔧 사용한 도구

  • Make (Integromat): 네이버 뉴스 페이지 스크래핑

  • HTTP 모듈: 언론사별 랭킹뉴스 페이지 HTML 수집

  • Gemini: 스크래핑 결과를 요약, 헤드라인 정리, 공통 키워드 추출

  • Google Spreadsheet / Obsidian: 결과 저장

🔍 스크래핑 흐름

  1. Make 시나리오에서 특정 시간(오전/오후)마다 자동 실행

  2. 언론사별 뉴스 랭킹 URL을 HTTP GET으로 수집

  3. 스크래핑된 HTML 텍스트를 Gemini로 전달

  4. 다음 형식으로 가공하도록 프롬프트 지정

[요약 목표]
- 언론사별 TOP5 헤드라인을 추출해 리스트로 정리
- 여러 언론사에서 공통으로 등장하는 키워드 상위 5개 추출
- Markdown으로 출력

⚠ 시행착오

  • Gemini 설정을 잘못해 HTML 구조를 제대로 읽지 못하고 이상한 결과가 돌아오기도 했어요.

  • 작업 시간 초과 오류도 여러 번! 알고 보니 스크래핑 결과가 너무 크거나 프롬프트가 비효율적이었기 때문이었죠.

3분 넘게 돌아가던 제미나이는 결국..

Google Gemini AI와 Google Analytics

시간 초과로 저를 거부해버리는 사태까지..

Google Gemini AI 오류 메시지

결과와 배운 점

📝 얻은 것들

  • 자동화 흐름을 처음부터 끝까지 직접 만들어보며 전체 구조 이해도 상승!

  • AI 모델에게 "무엇을 어떻게 정리해줘야 하는지"를 정확하게 지시하는 게 정말 중요하다는 걸 느낌

  • 뉴스 소비를 자연스럽게 습관화 할 수 있어서 블로그 주제에도 도움이 될 예정

💡 깨달음

  • 자동화는 작은 실패를 반복하며 세팅을 다듬는 과정이 필수라는 점

  • 너무 완벽하려 하기보다, 우선 작게 시작하면 기록이 쌓이며 동기부여가 된다는 사실

🚀 앞으로의 계획

  • 시트 데이터로 주간·월간 트렌드 리포트까지 자동 생성하기

  • Obsidian 플러그인과 연동해 자동 시각화도 시도 예정

도움 받은 글

  • Make 공식 문서

  • Gemini API 입력 가이드

1개의 답글

뉴스레터 무료 구독

👉 이 게시글도 읽어보세요