배경 및 목적
뉴스레터를 위한 자료수집과정에서 네이버뉴스를 선정. 같은방법으로 같은 API나 다른 링크 활용 가능
네이버 뉴스 api로 뉴스 전문을 받아올 수는 없어서, 각 링크를 방문하여 html파일 전체를 통해 전문을 뽑는 시나리오가 필요했습니다.
활용 툴
make, google sheet, serpapi
실행 과정
데이터 수집 플로우는 다음과 같습니다.
웹페이지에서 검색어를 넣고 자료수집 버튼을 누르면, 메이크의 웹훅으로 시나리오가 실행됩니다.
먼저 http로 naver 검색 결과 목록을 가져오고, 해당 목록에서 각 신문사의 뉴스링크를 받습니다.
각 뉴스링크의 html파일을 가져와 본문의 내용을 추출하고
각 기사의 메타데이터와 함께 구글시트에 저장합니다.
자세한 과정
검색어 입력 후 뉴스 수집 버튼 클릭 -> 웹훅으로 메이크 시나리오 실행
serpapi 거쳐서 네이버 뉴스 검색
제목, 링크, 썸네일, 신문사 등 정보 나옴 하지만
기사 전문 나오지 않음
뉴스 발행 시간이 정확하게 나오지 않음
신문사 링크를 넣고 html파일을 받아옴
각 신문사마다 태그가 달라서, 텍스트만 뽑은후 chatgpt로 본문 뽑아내기로.
json 타입으로 데이터를 받을 수 있도록 설정.
google sheet 원하는 칸에 입 력
결과 및 인사이트
정확한 시간, 기사 본문, 기자이름 까지 모두 수집 완료