WebPilot을 사용하면 데이터를 잘 읽어다 줍니다. 그런데, 이런 것을 바란 것이 아니죠. 이렇게 물어봐서 데이터를 가져올 것이라면, 사이트에 접속해서 직접 볼 수도 있을테니까요. 혹시, WebPilot API는 없을까요? 궁금해서 들어가 보았습니다. 아쉽지만, 아직입니다.
그래서, 코드를 직접 짜보기로 합니다. 하지만, 어림도 없습니다.
어쩔 수 없이, 값 하나하나 CSS 셀렉터를 찍어봅니다.
결과를 실행해보니 잘 작동합니다. 하지만, 이름만 출력된다는 것을 알 수 있었습니다. 최대한 CSS 셀렉터의 패턴을 찾아보았고, 아래의 파이썬 코드로 구현해보았습니다. 그리고, 이 것을 정리해줄 것을 부탁했습니다.
이외의 몇가지 과정을 거치자 두개의 csv 파일과 이런 결과물이 출력되었습니다.
결론적으론 성공했지만 아쉬움이 남는 작업이었습니다. 좀 더 스마트하게 써볼 순 없을까 고민을 해 보았지만 아직인 것 같습니다. 다음에는 이 데이터들을 사용하여 챗봇으로 보내는 작업을 해볼까 합니다.
요약:
처음부터 끝까지 크롤링은 어려워 보인다. 하지만, 적절한 CSS 셀렉터를 물어다 주면, 크롤링 코드를 성공적으로 짜준다.