2주차 숙제, 키워드 크롤링 시도

우선 수업시간에도 못했던 beautifulsoup4를 설치에 성공하는 기염을 토하고…

수업내용을 다시 들으며 복습을 했습니다.

제가 하고싶었던건 Naver에서 특정 뉴스 안의 element를 가져오는것이지만,

그렇게 가져오는 것은 파트너님처럼 a href가 나오는게 아니라서

Naver뉴스에서 가져오는걸로 했습니다.



그래서 질문했습니다.


from bs4 import BeautifulSoup

import requests

base_url = "https://search.naver.com/search.naver?ssc=tab.news.all&where=news&sm=tab_jum&query="

keyword = input("검색어를 입력하세요 : ")

search_url = base_url + keyword

---

이 뒤에 코드를 더 짜보려고 하는데

지금 네이버 뉴스에서 원하는 키워드로 검색하고 뉴스 제목, 링크를 크롤링하고싶어

이게 첫 뉴스의 element야

<a href="https://n.news.naver.com/article/025/0003368609?cds=news_media_pc" class="cc_text_a neednclick cdslink" data-click-code="home.edit1text2" data-aid="0003368609">"할아버지라면 어떻게 했을까" 정의선 105층 포기한 결정타</a>

---

이 부분의 selector는 다음과 같구

#ct > div > section.main_content > div.main_brick > div > div:nth-child(1) > div:nth-child(2) > div > div > div.cjs_journal_content._headline_tab_contents > ul.cc_text_list > li:nth-child(1) > a

여기서 나는 title 이거랑, href 이 부분을 쭉 크롤링 하고 싶어 가능할까?

_________________________


그리고 도출된 코드를 copy했지요.

그런데 파트너님이 보여주신 결과와 다른 text가 보여서

gpt에서 질문하면 된다는 놀라운 생각이 떠올랐습니다.



그래서 다시 인스톨에 성공하고

코드를 실행시켜보았더니, 드디어 제게도 검색어를 입력할 기회를 주더라구요.

그래서 “크루즈”로 입력을 했죠.

그런데 아무런 반응이 없어요. 그래서 gpt에게 물어봤더니 셀레니움을 설치하고 수정된 코드를 사용해보라고 하네요.

그래도 안되었어요.

크롬경로가 잘못되었다고 하는데, 크롬 버전과 드라이버의 버전이 안맞다고 하네요.

크롬이 최신버전이 아닌걸 확인한 후 크롬 드라이버 버전을 최신화하고,

이에 맞는 드라이버를 다운로드하려고했는데, 못찾겠더라구요 ㅠㅠ

여기서 몸의 열기와 현기증을 느끼고 일단 멈추기로 했어요.

제가 시도한 내용은 다음과 같습니다🤗

https://chatgpt.com/share/ee5afa26-0aa8-4220-b0ff-1a7bcaaa6b9b

3
2개의 답글

👉 이 게시글도 읽어보세요