뉴스레터 자동화 데이터 수집

소개

  • DB 구축은 아직 완료된 상태가 아니여서 데이터 수집하며 겪었던 부분과 현재 진행중인 부분들을 정리해보았습니다.

진행 방법

  • 제약조건

    • Daily로 S&P 500 전종목에 대한 주식데이터 및 뉴스데이터 수집 필요

    • 실시간까지는 아니지만 그래도 지연이 있으면 안됨.

  • 주식 관련 Data 수집

    • 미장 주식 데이터 : yfinance (FinanceDataReader도 yfinance로부터 데이터 수집함)

    • S&P 500 리스트 : 위키피디아 List of S&P 500 companies 에서 가져오기

    • 미국 휴일인 날에는 코드 작동하지 않도록 설정 + 장 시작 전/후 Data 수집 진행

  • 뉴스 Data 수집 : 무료이고, 사용량이 충분하며 사용하기 편할 것

    한국어로 된 문자 메시지의 스크린샷
    검은 화면에 한국 노래 목록
    • 웹 크롤링 : 사이트마다 조건이 다를 것이고, 유지보수도 어려울 것 같아 제외

    • API 나 RSS 등 서비스 이용 : GPT에게 물어보니 여러 서비스들을 추천해주었음.

      • Alpha Vantage : 25 request per Day 로 제외

      • NewsAPI.org : 100 requests per Day + Articles have a 24 hour delay 로 제외

      • RSS.app : 직접 사이트 등록 필요 + 수집 가능 문건 수 제한 + 유료 결제로 제외

      • IEX Cloud : 서비스 중단됨

      • Apify : 아직 사용해보지 않았음.

      • 그 외 해외 API 서비스들 : 하나씩 시도하면서 좀 더 나은 서비스 있는지 확인중

  • DB 서버 구축

    • 상시 무료로 사용 가능한 Oracle Cloud Always Free를 사용하고자 함.

      오라클 에이펙스 DB
    • 리소스 분배를 위해 리소스 세부 사항을 Claude에 집어넣고 시스템 구성안을 받아봄

      한국사이트 스크린샷
    • 가입 후 Claude가 준 시스템 구성안에 따라 하나씩 만들었다 지우면서 시행착오 겪는 중임.

결과와 배운 점

  • GPT에게 물어보니 알지 못했던 해외의 좋은 API 서비스들을 추천해줘서 하나씩 써보고 있습니다.

  • 분발하겠습니다...

도움 받은 글 (옵션)

‎​(내용 입력)

1

👉 이 게시글도 읽어보세요