[문과생 AI] 2주차 과제(네이버 뉴스 크롤링 100개) + 웹 브라우저 키워드 입력하여 뉴스 100개 크롤링 하기

지난 주, 수업을 들을 때는 뭐… 간단하네! 하고 생각을 했는데

며칠이 흐르고 월요일에 작업을 하려고 하니 ㅎㅎ 머리속이 흐리네요.

저는 무식하게, 과제의 ‘목표와 요구사항’을 던지며 시작을 했습니다.

2주차 과제 시작

1. 내가 작업을 요구하는 목적과 요구사항을 GPT 4.o에 질의

- 결과는 아무런 내용이 없어서 실패

- 코드가 ‘정답프롬프트’와는 많이 다르게 나오네요.

2. 과제 문서의 ‘힌트코드’만 제공하여 질의

- CSV 저장 성공

- CSV에 "Title,Link,Date"만 존재

- 크롤링은 실패

3. 안된다고 하니…’선택자’를 수정하여 코드를 제공

- 그러나, 결과는 역시 실패

4. 그래서, 네이버 뉴스 페이지에 검색어인 ‘서울시 시니어’를 입력하여 나온 첫 뉴스의 Selector를 GPT에 제공

- #sp_nws1 > [div.new](http://div.news/)s_wrap.api_ani_send > div > [div.new](http://div.news/)s_contents > [a.new](http://a.news/)s_tit

- 결과는 100개의 기사를 크롤링해 줌

5. 그런데, 크롤링된 내용의 기사 순서가 내가 본 것과 GPT 코드가 크롤링한 것과 왜 다른지 물어봄

- 대답

“CSV의 결과 순서가 기사 순서와 다른 이유는 크롤링 과정에서 데이터가 수집되는 순서와 CSV에 저장되는 순서가 일치하지 않기 때문일 수 있습니다. 이는 특히 여러 페이지에 걸쳐 데이터를 수집할 때 발생할 수 있습니다. 이를 해결하려면 각 페이지에서 크롤링한 데이터를 순서대로 저장하고, 최종적으로 데이터프레임에 추가하는 방식으로 코드를 수정할 수 있습니다.”

- 새로운 코드를 입력한 크롤링 결과 CSV도 내가 보는 페이지와 다름

- 3분 뒤에 확인한 것은 네이버 기사를 새로고침시 기사가 달랐음

- 최초에 잘 크롤링 된 것이었음

6. CSV 결과물을 새로 저장할 때 마다 기존 파일이 삭제되어 ‘저장이 잘 되고 있어. 추가로 CSV 파일명에 저장되는 시각도 추가로 넣어서 파일명을 만들고 싶어’를 추가로 요구함

- 결과는 저장되는 CSV에 “news_20240624_124221.csv”시각 정보도 추가되어 저장되어 좋았음

추가

내가 실제 보고서 등을 위해서 뉴스 검색이 많아서 vsCode에서 실행하는 것 웹 브라우저에서 네이버 뉴스 검색이 되도록 gpt에 요청하여 웹 브라우저에서 키워드 입력하여 csv를 얻는 것을 제작 함

1. 추가 요청 :

2. 1차 실패
- 결과 이미지와 터미털의 결과를 제공하여 수정

  1. 2차 실패
    - 최초 받은 코드를 삭제하고 다시 제공한 코드를 각 파일에 복사 붙여넣기

  2. 3차 실패. 웹 브라우저 결과 화면과 터미널 코드를 GPT에 제공

  3. 성공. 더 다듬을 수 있으나 그냥 오늘은 여기서 만족하기로 함



소회

  • 과제 힌트를 무시하지 말자

  • 역시 GPT는 사람이 아니고 똑똑하고 많은 것을 하는 기계라 정확한 가이드 제공 필요

  • 더 확장을 위해서는 프로그래밍을 위한 언어와 시스템 구조에 대해 알기는 알아야 함


다음 작업


#문과생도AI #문과생도 AI #네이버뉴스 크롤링

4
3개의 답글

👉 이 게시글도 읽어보세요