네이버 쇼핑 가격 등 정보 검색, 이미지 검색 & 다운로드, 엑셀 파일로 저장

배경 및 목적

  1. 특정 브랜드의 특정 상품을 네이버에서 검색하면

  2. 판매 가격, 평점, url, 이미지 등을 얻고자 함

참고 자료

크롤링 관련 여러 유튜브 강의를 보고, 따라함.

  1. 지피터스 글들과 추가 유튜브 강의를 더 들으며,

  2. 언어 및 배경 지식을 지속 학습 --> 오류 수정해 나가고자 함

  3. 여러 강의 중에 아래 강의가 가장 자세하고, 따라하기 좋았음

  4. https://youtu.be/DDgcyU0o4E0?si=Yff1d8Y-v_2qm_QE

  5. https://www.youtube.com/watch?v=3BPyPlAszec

활용 툴

1. gpt 4.0 with canvas

  1. cladue

  2. cursor ai

  3. 1, 2번에 프로프트를 넣고 (유튜브 영상의 프롬프트 그대로, 셀레니움 등만 살짝 수정)

  4. 커서 ai 에 수정 요청하며, 오류 보완

  5. 강의 영상 프롬프트 👍 keyword가 입력되면 아래의 URL 에서 상품을 크롤링해줘

    https://search.shopping.naver.com/search/all?query={keyword}

    크롤링할 정보 : 이름, 가격, 판매처수, 옵션정보, 별점,리뷰수, 등록일, 썸네일, 배송비

    1. PyQT6와 selenium을 써서 키워드가 입력되면 크롤링 되게 해

    2. 크롤링 현황과 결과를 gui에서 볼 수 있어야 해.

    3. 엑셀로 export 할 있어야해

    4. 상품의 많은 정보를 크롤링해줘

    5. 썸네일 이미지도 다운로드해줘

    6. 이미지가스크롤해서 이미지가보일 때 lazy loding되고 있어(한번에 많은양을 스크롤 하면 안돼. 화면에 보여야 이미지가 로딩돼)

    7. className 의 끝이 계속 변경되어 XPath를 사용해줘

    8. networkidle상태에 도달하지 않아 로딩 확인을 다른 방법으로 해줘

    상품의 html 구조를 첨부할께

실행 과정

  1. 동영상 강의 경우 : 코드 정보를 읽으며, 부분 부분 수정해 나감 (ex, run 부분만 수정)

  2. 나의 경우 '터미널'에 나오는 오류를 그대로 복붙 하며, 오류를 수정하여 전체 코드를 다시 만들어 달라고 15~20번씩 계속 요청하여 시도 --> gpt 4.0 with canvas, cladue 2개 트랙으로 진행 --> 실패

  3. cursor ai 를 통해 다시 시도 --> 성공

결과 및 인사이트

  1. 크게 3개 영역의 지식 부족

    1. pip 설치 : 간단한 것은 따라하며 설치 가능했으나 특정 몇 개는 어떻게 설치해야 할지 모르겠음 (ex) python -m pip install webdriver-manager)

    2. 경로 지정 서툼

    3. 오류를 지속 수정하다 보면, 2~3개 원인으로 귀결 되는데, 지식 부족으로 해결 방법 찾기 불가능 --> cursor ai 에서 친절하게 설명, 개선, 적용까지 해줘서. 구현 성공!

  2. 다른 강의를 보며 실습 하고, 더 많은 경험을 축척해야, 하나씩 하나씩 더 이해할 듯

  3. 개발적 지식과 경험이 있어야, 오류들을 예상하여 더 나은 프롬프트를 작성 가능

6
4개의 답글

👉 이 게시글도 읽어보세요