안녕하세요. 10기 문과생도 AI 킵고잉입니다.
저는 ‘쿠팡 리뷰 크롤러’를 만드는 것을 목표로 정하고 [문과생도AI] 프로젝트를 진행하고 있습니다.
감사하게도 10기 3주차 첫 발표를 하게되어 정신없이 발표를 마쳤습니다.
지난 글이 궁금하시다면..
[문과생도AI] 문과생도 필요한 프로그램을 개발할 수 있다.. 이말이지? | 지피터스 GPTers그런데 발표가 끝나고 정기 파트너님 Say....
“쿠팡은 1티어급 웹사이트라서....”
앞뒤 말씀은 정확히 기억이 안나지만, 저 문장이 제 가슴에 팍 꽃혔습니다..
“아.. 그렇구나? 내가 겁DaeGari도 없이 보스몹을 건드렸구나...ㅎㅎ”
헛웃음이 나왔지만, 그래도 이왕 시작한거 해보기로 했습니다.
1. 정확히 뭐가 문제일까?
GPT가 코딩을 짜줘서 어찌어찌 진행은 되었지만... 계속해서 같은 문제가 발생했습니다.
뭔가 계속 파일은 만들어지는데, 빈 파일만 만들어짐.
그럼 중간중간 어디서 잘못됐는지를 파악해보자!
먼저 파일로 저장하지 않고, 최종 수집값을 실행창에서 볼수있게 바꿨습니다.
그랬더니 계속 타임아웃 오류가 뜨더라구요... 왜 그럴까..
GPT야.. 너는 답을 알고있니..?
음.. 결론은 이 부분에서
지정한 요소가 나올때까지 기다리라는 명령을 수행하던중, 그 요소가 끝까지 나오지 않아서 Timeout! 이라는 뜻인데요
시간을 늘려도 보고, 클래스명을 바꿔도 봤지만 소용이 없었습니다... 왜 그럴까..?
애초에 저 부분을 긁어가지 못하도록 막아놓은건 아닐까? 라는 생각이 들었고, 테스트를 해봤습니다. 기다리는 시간은 충분히 길게 time sleep으로 잡아 놓고, 전체 크롤링한게 제대로 되는지부터 봐야겠습니다. 물론.. 코드는 GPT가 짜줍니다.
역시 리뷰 부분이 아예 수집이 안되는군요.
CSS선택자는 제 능력으로는 아무리 봐도 틀린 걸 못 찾겠어요.. 그래서 2,3번으로 접근해 봅니다.
대답을 바탕으로 여러 가지 시도를 해봤지만 계속 실패..!
그럼 일단 내가 지금 쿠팡에 접속한 건 맞을까? 긁어올 수 있는 상태인 건 맞을까? 이게 궁금했습니다.
그래서 리뷰 말고 좀 더 쉬운 상품명을 수집하도록 바꿔봤어요.
오… 되네?
아하! 상품명은 수집이 잘 되는데... 왜 리뷰는 안될까..?
도저히 모르겠습니다...
하지만, 일단 제가 쿠팡URL에 접속한건 확실하다! 여기까지는 알아내었네요!
2. 챗GPT도 모른다고 할때는...
이 부분은 아무리 GPT와 씨름해도 답이 나오질 않았습니다. 근데 3주차 강의시간에
“너무 챗GPT하고만 공부하려고 하지마시고, 구글링도 같이 해보세요! 원래 GPT 출시 전엔 다 구글링으로 공부했어요.”
라고 말씀하신게 생각 났습니다.
그래서 열심히 구글, 네이버, 유튜브를 돌아다니면서 셀레니움, 리뷰, 크롤링 같은 키워드를 조합해가며 구글링을 했습니다.
그러니까 답이 나오더라구요.. 유튜브에는 없는게 없었습니다.
제가 검색해서 찾은 문제의 원인은
쿠팡URL에 처음 들어가면, 리뷰에 해당하는 클래스는 아예 로딩자체가 안되어있다는 것...
즉, 리뷰를 보는 링크에 추가로 접속을 해줘야 한다는 것이었습니다.
아...하....ㅋㅋㅋ
문제의 원인을 찾고나니 너무 기뻤습니다.
어릴 때, 수학 문제를 한참 고민하다가 해결 방법을 깨달은 것처럼 도파민이 치솟더라구요 ㅋㅋㅋ
그래서 리뷰로 접속할 수 있는 텍 스트를 클릭하고, 그 이후에 로딩된 리뷰들을 수집하도록 코드를 짜달라고 했습니다.
이렇게 질문하는 것을 시작으로 또 한참의 삽질이 있었지만...
(중간과정을 다 설명드리기엔 글이 너무 길어지니 생략)
첨부용 동영상.mp4
드디어! 리뷰를 가져오는데 성공했습니다!
하.. 정말 정말 ㅋㅋㅋㅋㅋㅋㅋ
기쁘면서도 후련하면서도 한숨이 쉬어지는 건 왜일까요?
이번주에 배운점과 느낀점은,
1) GPT는 만능이 아니다.
2) 때로는 선배들이 올려놓은 글과 영상들이 훨씬더 빠르고 쉬운 답을 준다.
3) 너무 GPT를 믿지말자.
4) 포기하지 말자.
일단 큰 고비는 넘겼으니, 이제 다음주에는 다음단계로 넘어가보겠습니다!
다음은,
리뷰 페이지를 넘겨서 여러 페이지를 크롤링하기
별점(1~5점) 별로 선택해서 수집할 수 있도록 만들기
엑셀로 다운받기
EXE 프로그램으로 만들어보기
이렇게 계획을 짜고 있 습니다.
계획대로 된다면, 베타 버젼의 프로그램을 만들어보고 좀 더 가다듬어서 판매할만한 상품까지도 만들어 보고싶습니다.
다음 편이 기대 되신다면 좋아요와 댓글 달아주세요!!!!
#10기문과생도AI