[7기 API방] API를 이용해서 유툽 동영상 크롤링하기


안녕하세요, 7기 API방 Trix입니다.

저는 이번에 유툽 API와 ChatGPT를 이용해서 유툽 동영상을 무작위로 크롤링하는 작업을 시도해보았습니다.


먼저, GPT에게 “인터넷에서 특정 키워드와 연관된 영상들을 무작위로 크롤링하는 알고리즘을 Step-by-Step으로 개발해줘.”라고 하니, 한참을 고민하고 나서, 아래와 같은 순서로 작업을 진행하기 시작합니다.

다음으로 특정 컨셉의 영상을 검색하는 함수를 개발하겠다고 하고선, 저한테 예시 코드를 제공해 주었습니다.

내가 완전 초짜이니 코드를 이해하기 쉽게 주석을 달아달라 하고, VSCode에서 실행할 수 있게 차근차근 순서대로 알려달라고 합니다. → 아주 상세하게, 하나하나 다 알려줍니다!~ㅋ..

예시 코드로는 실제 크롤링을 할 수 없을 거 같아서, 실제로 적용할 수 있는 코드로 다시 만들어달라고 합니다.

실제로 작동하는 크롤링 코드를 만들기 위해서는 아래와 같은 정보가 필요하다고 해서 관련 내용을 정리해서 제공해줍니다.

필요하다고 한 정보를 제공한 후…

키워드별로 폴더를 만들어서 크롤링한 영상을 따로따로 저장해달라고 부탁했습니다.

이제, GPT가 본격적인 코드 생성 작업에 들어갑니다.

3단계의 작업이 끝나고 나서, GPT가 각각의 코드를 생성해 주었는데, 이걸 어떤 순서로 합쳐야 할 지 모르겠어서, GPT한테 하나의 파일로 만들어달라고 합니다.

GPT가 상세히 알려준 대로 VSCode에서 실행을 해 봅니다.

몇 차례 디버깅도 해보면서 여러번의 시행착오를 거친 후… 각각의 검색 키워드에 해당하는 폴더가 생성되고 영상이 자동으로 수집된 걸 확인할 수 있었습니다.^^ (무려…? 12G…)


아쉬운 점은,

  1. 유툽에서 직접 확인한 키워드를 여러 개 제공했는데, 하나의 키워드에서만 영상이 수집된 점.

  2. 최소 100개를 긁어달라고 했는데, 하루종일 기다려봤지만, 6개를 끝으로 묵묵부답…


새벽 1~2시에 시도했을 때는 다운로드가 바로 실행되었는데, 다음날 오전에 다시 시도해 보니 같은 코드인데도 도통 다운로드되질 않아서 GPT한테 왜 다운로드가 오락가락하냐고 물어보니, YouTube API 문제일 수 있다고 하더군요. 구글 클라우드에 들어가서 확인해 보니, API 오류율이 61.9%가 나오네요…ㅠㅇㅠ


이번 작업에서 가장 큰 의미는, 제가 한 줄의 코드도 작성하지 않고 오로지 GPT와의 대화를 통해서만 폴더를 자동으로 생성하고 유툽 영상을 다운로드받을 수 있었다는 것입니다. 사실, 반신반의하면서 시작한 작업이었고, ‘설마, 될까….?’ 하는 의구심도 있었는데, 좀 놀랐습니다…*ㅇ* (GPT 짱이네요~ㅎ)

다음 작업에서는, (1) 최소 5개 이상의 키워드에서 크롤링 영상을 얻어내고, (2) 영상 갯수도 최소한 50개 이상 확보할 수 있게, 그리고 (3) PythonTube가 아닌, Youtube Downloder(youtube-dl)로 교체해서 재작업해보려 합니다.

감사합니다.


2023.10.19 16:37

p.s. 방금 다운로드 폴더를 보니 동영상이 몇 개 더 다운로드되었네요 ..! 프로그램 작동이 이미 끝난 줄 알았는데, API 크롤링은 밑단에서 계속 구동되고 있었나 봅니다. 근데, 이런 식으로 얼마나 더 밑단에서 돌아가는 건지 잘 모르겠네요… 그걸 알면 충분히 기다린 후에 결과 확인을 할 수 있을 것 같은데…쩝쩝


2
2개의 답글

(채용) 콘텐츠 마케터, AI 엔지니어, 백엔드 개발자

지피터스의 수 천개 AI 활용 사례 데이터를 AI로 재가공 할 인재를 찾습니다

👉 이 게시글도 읽어보세요