허세임
허세임
⚔️ 베테랑 파트너
📹 SNS 찐친

Make 에서 네이버 뉴스기사 전문 크롤링하여 데이터 수집하기

배경 및 목적

뉴스레터를 위한 자료수집과정에서 네이버뉴스를 선정. 같은방법으로 같은 API나 다른 링크 활용 가능

네이버 뉴스 api로 뉴스 전문을 받아올 수는 없어서, 각 링크를 방문하여 html파일 전체를 통해 전문을 뽑는 시나리오가 필요했습니다.

활용 툴

make, google sheet, serpapi

실행 과정

데이터 수집 플로우는 다음과 같습니다.

웹페이지에서 검색어를 넣고 자료수집 버튼을 누르면, 메이크의 웹훅으로 시나리오가 실행됩니다.

먼저 http로 naver 검색 결과 목록을 가져오고, 해당 목록에서 각 신문사의 뉴스링크를 받습니다.

각 뉴스링크의 html파일을 가져와 본문의 내용을 추출하고

각 기사의 메타데이터와 함께 구글시트에 저장합니다.

자세한 과정

검색어 입력 후 뉴스 수집 버튼 클릭 -> 웹훅으로 메이크 시나리오 실행

serpapi 거쳐서 네이버 뉴스 검색

제목, 링크, 썸네일, 신문사 등 정보 나옴 하지만

  • 기사 전문 나오지 않음

  • 뉴스 발행 시간이 정확하게 나오지 않음

신문사 링크를 넣고 html파일을 받아옴

각 신문사마다 태그가 달라서, 텍스트만 뽑은후 chatgpt로 본문 뽑아내기로.

json 타입으로 데이터를 받을 수 있도록 설정.

google sheet 원하는 칸에 입력

결과 및 인사이트

정확한 시간, 기사 본문, 기자이름 까지 모두 수집 완료

1
1개의 답글

👉 이 게시글도 읽어보세요