[7기 API방] 구글 SDK 이용해서 API 크롤링 시도


유툽 API 이용해서 영상 크롤링을 시도한 후, 크롤링이 되지 않는 키워드들을 비롯한 몇 가지 문제점들을 해결하기 위해 다시 도전을 해 봅니다. 유민수 파트너님께서 구글 유툽 API를 이용하려면 SDK를 깔아야 해서 조금 어려울 수 있으니 다른 크롤링 방식을 시도해 보라고 하십니다. 가령 링크를 csv 형태로 저장을 하면 엑셀에 순서대로 링크가 저장되어서 영상이 순차적으로 다운로드 되는 방식이라던지… 챗GPT API를 이용해서 키워드를 검토해보는 것도 좋겠다고 하셔서 일단 해보기로 하고,

우선 GPT한테 SDK가 뭔지를 물어봅니다.

SDK를 사용하는 것과 사용하지 않는 것의 차이도 물어보았습니다.

SDK가 더 빠르고 쉽게 만들 수 있다고 해서, 일단 구글 SDK 설치를 해 보기로 했습니다. 해보다 안되면 다른 방법으로~ㅎ

SDK를 설치한 후에 Python에서 구글 클라우드 SDK를 사용해서 유툽 API를 호출하는 방법을 알려준 대로 따라해 보았습니다.

인증정보 생성해서 JSON키 파일을 다운로드 받으라고 합니다.

가끔씩, 챗GPT가 저의 프롬프트를 따라서, 반말과 존대말을 섞어서 말해주네요…

챗지피티한테 존칭을 쓸 껄 그랬습니다…;;

“네가 원하신 코드…”라니…ㅎ 아예 반말을 하시던지 아예 존대를 해주시던지~

코드를 세팅하고 돌려보니, 이게 또 작업을 하고 있는 건지 아닌 지 알 수가 없네요…

진행바 코드를 추가해달라고 해봅니다.

이번에는 코드 확인 작업을 요청해 보았습니다.

CSV 파일 저장 오류가 떠서 확인요청을 했더니 인코딩 저장 방식을 UTF-8로 설정하라고 해서 해결하고, 크롤링을 돌려보았습니다.

GPT가 작업을 하다가, 라이브 스트리밍 파일을 만나서 어떻게 해야 할 지 몰라서 에러를 출력하네요.

그래서 문제 확인 후, 라이브스트리밍 파일은 크롤링 시도하지 말고 패스하라고 했습니다.

확.실.히. SDK를 깔고 크롤링을 해보니,

깔기 전에는 다운로드가 잘 되지 않았던 키워드에도 파일들이 착착 쌓이기 시작합니다!~*ㅇ*

파일들이 대부분 3~7시간짜리여서 다운로드 시간이 너무 걸려서, 중간중간에 끊기는 경우도 있다 해서, 30분마다 정상 다운로드 체크하는 코드를 추가해달라고 합니다.

그 결과, 각 키워드마다 최소 5개 이상의 파일이 크롤링 된 것을 확인할 수 있었습니다.

크롤링된 파일 목록(csv)도 함께요~^^



정리.

SDK 설치 과정이 생각보다 쉽지 않았으나, SDK 설치했을 때, 확실히 다운로드율이 확 올라가는 걸 확인하였습니다.

다음에는, 레퍼런스 음악을 분석해서 음원에 사용할 클립을 추출하고 배치하는, (제 기준에는) 아주 고난이도로 느껴지는 작업을 시도해보려 합니다.~


2
3개의 답글

👉 이 게시글도 읽어보세요