북한 뉴스를 보는 다양한 시각 GPTs- BBC의 RSS 수집에서 실패한 사례

3줄 요약 (TL;DR)

  • 북한 뉴스에 대한 다양한 시각을 한눈에 보고 싶어 여러 언론의 RSS를 수집하기 시작함.

  • BBC 등 일부 매체는 특정 키워드 필터링에 어려움이 있어 한계에 부딪힘.

  • 법률 검토 과정을 거쳐 신뢰 기반의 수집 방식을 정립했고, 다음 목표는 자동화 도전!


📘 사례 본문

  1. 왜 이 작업을 시작했나요?

북한과 관련된 뉴스는 다양한 시각이 존재하기 때문에, 특정 언론만으로는 편향된 정보에 노출되기 쉽다고 느꼈습니다.
그래서 BBC, VOA, RFA, 연합뉴스 등 여러 언론사들의 북한 관련 기사만 모아서 비교해보고 싶었습니다.


  1. 어떤 도구와 기술을 사용했나요?

Google Sheets의 IMPORTFEED() 함수를 활용하여 RSS 피드를 수집했습니다.
주요 RSS 주소:

사용한 기본 함수 예시:
=IMPORTFEED("https://feeds.bbci.co.uk/news/world/rss.xml", "items", TRUE)


  1. BBC 필터링에서 겪은 문제

BBC의 RSS는 IMPORTFEED()로 수집은 가능했지만, 특정 키워드("North Korea")가 포함된 뉴스만 자동 필터링하는 것이 어려웠습니다.

📌 실패한 시도:
=QUERY(IMPORTFEED("https://feeds.bbci.co.uk/news/world/rss.xml", "items", TRUE), "select Col1 where Col1 contains 'North Korea'", 1)

  • QUERY()를 활용해 필터링하려 했지만, IMPORTFEED() 결과의 컬럼 구조가 명확하지 않아 쿼리가 동작하지 않았습니다.

💡 대안 고려 중:

  • Google Apps Script를 통한 RSS 필터링

  • Python으로 수집 및 정제 후 Google Sheets에 연동


  1. 법적인 고민과 확인

RSS 수집이나 웹 크롤링이 법적으로 문제가 될 수 있는지를 명확히 알고 싶었습니다.
직접 관련 언론사의 이용약관과 robots.txt를 확인하고, 수집 목적이 상업적이지 않고 정보 분석에 국한된다는 점을 기준으로 판단했습니다.
필요 시에는 해당 기관의 약관에 따라 조심스럽게 접근하고자 했습니다.


  1. 다음 목표: 자동화 도전

지금은 수동으로 RSS를 불러오고 있지만, 다음은 다음과 같은 자동화 목표를 세웠습니다:

  • Google Apps Script를 이용한 자동 키워드 필터링

  • Notion이나 Slack 등 외부 도구로 연동

  • Python + 크론잡(Cronjob)을 통한 정기 수집 및 분석


🎯 배운 점

  • 단순한 RSS 수집도 기술적인 난관이 존재함을 깨달음

  • 법적인 리스크를 고려하는 자세의 중요성을 체감

  • 자동화로 확장할 여지를 발견함 (다음 프로젝트의 동기 부여!)


📌 사용자 예시 (User Examples)

혹시 여러분도 특정 키워드 기반 뉴스 필터링을 시도해보셨나요?
성공/실패 사례나 사용한 함수, 스크립트, 혹은 스크린샷을 아래에 자유롭게 공유해주세요 😊

⚠️ 중요: 가상의 예시는 반드시 "가정"임을 표시하고, 실제 사례는 확인된 사실만 작성해주세요.

1

👉 이 게시글도 읽어보세요