[문과생도 AI] 구글 크롤링을 통한 디자인 자료 수집 도전기

안녕하세요, 코딩 초초초보 아리입니다.
저번시간에 인스타그램 자동 포스팅을 위한 수업을 보았지만 전반 10분이후에 저는 방청객 모드로 전환하였습니다. ㅎㅎ 어려웟거든요.

그래서 이번에도 저번과 마찬가지로 실무에 쓸 수 있는 방법이 훨씬 목표의식을 가지고 진행하기 좋을것 같아서 디자인 자료를 수집하는 과정을 진행해 보았습니다. 처음에는 네이버로 실행하였는데 현재까지 결과는 구글에서만 크롤링을 성공 하였습니다. 무슨일 인지 모르지만 api연동이 안되는거 같더라구요. 그래서 api가 필요없는 구글에서 진행을 하였구요 저번시간에 성공했다고 처음에는 단순하게 접근하였지만, 실제로 코드를 작성하고 실행하는 과정에서 여러 어려움에 부딪혔습니다.

저는 의류쪽에서 재직하고 있는데 시즌이 들어가기 전 디자이너들은 항상 참조할 만한 디자인을 일일이 웹서핑을 하면서 캡쳐하여 자료집을 만들어 놓습니다.

크롤링이라는게 먼지 이제 확실하게 알았으니 원하는 검색 코드를 클로드에 질문합니다.

에러가 나면 다시 물어보는 식으로 코드를 작성했고 네이버 api로도 해봣는데 무슨 이유에서인지 안되더라구요. api때문인거 같다고 클로드가 그래서 구글은 없어도 된다고 하여 구글에서 다시 도전해봤습니다. 먼저, 구글 이미지 검색 결과에서 이미지를 다운로드하는 코드를 작성했습니다. 기본적인 웹 스크래핑 기술을 활용하여 이미지 태그를 찾고, 원본 이미지 URL을 가져와 다운로드하는 방식이었죠.

여기까지가 1차적인 성공입니다!


그런데 실행해 보니 화질이 너무 낮은 이미지들만 다운로드되는 문제가 발생했습니다.

고화질 이미지를 얻기 위해 아마존, 핀터레스트 등 다양한 사이트에서 크롤링을 시도했지만, 웹사이트마다 크롤링 방지 정책이 다르다 보니 쉽지 않았습니다. 결국 Selenium 라이브러리를 활용하여 웹 브라우저를 직접 제어하는 방식으로 해결해야 한다고 해서 도전중입니다.

현재 Selenium 설치 및 ChromeDriver 버전 호환 문제 등 새로운 도전과제가 기다리고 있었습니다. 가상환경에서 pip 명령어가 작동하지 않는 이슈, ChromeDriver와 Chrome 브라우저 버전 불일치 오류 등 여러 번의 시행착오 끝에 겨우 극복할 수 있었습니다.

결과적으로 목표한 고화질 디자인 자료를 곧 수집할 수 있을 것이라 생각합니다. 그 과정에서 많은 시간과 노력이 필요했습니다. 웹 크롤링은 간단해 보이지.만 실제로는 예상치 못한 장애물이 많이 있다는 것을 깨달았습니다. Selenium까지 꼭 성공해서 디자인 작업을 위해 다양한 자료를 수집해야 하는 일에 더욱 효율적이고 안정적인 크롤링 기술을 익혀나가겠습니다. 감사합니다.

**Selenium 성공하면 추가 작성할께요 ㅎㅎㅎㅎㅎㅎ

9
2개의 답글

👉 이 게시글도 읽어보세요