숏폼을 만들기 위해 어떻게 해야할까요?
사내 사이드프로젝트로 개발하며 MVP 형태 정도로 만들어본 프로젝트에 대한 소개를 짧게나마 해보려합니다. 유튜브 채널을 운영하는 크리에이터들은 인기있는 영상의 부분 부분 조각내어 숏폼 형태(이하 쇼츠)로 만들어 업로드하곤 합니다. 내가 크리에이터이면서 직접 편집을 하는 유튜버라고 했을 때, 이러한 부분을 찾아내는게 참 쉽지만은 않습니다.
재미있는 구간은 어떻게 선택할까?
하지만 ChatGPT 만으로 충분히 원하는 결과를 얻기는 참 힘듭니다. 실제 사용자 반응이 가장 좋은 부분을 찾기도 쉽지 않을 뿐더러, 이미 1차 편집이 되어 업로드된 영상에서 특정 위치를 찾는 것은 더욱 쉽지 않은 문제입니다.
실제 위 영상은 핑계고(다비치편)의 영상 캡처 입니다. 여기서 재미있는 즉, 사용자들이 가장 많이 보거나 반응이 있는 구간을 찾아야합니다. 즉, 유튜브에는 일정 조회수 이상 혹은 설정에 따라 가장 많이 다시 본 장면 이 기록되는 구조입니다. 물론 이러한 장면은 특정한 채널 혹은 규모 이상의 콘텐츠만 가능하기 때문에 숏폼으로 만드는 기준이 될 수 없습니다.
AI 기반으로 추천 받기
비디오의 특성 상 직접 영상을 분석하고 재미있다 라는 주관적 포인트를 찾기 어렵습니다. 특정한 테마(카테고리)의 영역이라면 몰라도, 유튜브에 업로되는 영상은 매우 다양하기 때문입니다. 따라서 특정 테마에만 적용되는 AI 학습 모델은 적절치 못하다~ 라고 생각했습니다.
AI 학습 모델은 사용이 불가능할까?
E-스포츠 영역에서는 특정 게임에 따라 다양한 이벤트가 발생하기 때문에 이러한 이벤트를 기반으로 학습을 해나가면 됩니다. 하지만 핑계고, 너덜트, 킥서비스 등의 예능 그리고 뉴스, 정보 전달형, 방송 편집본 등의 영상에는 해당되지 않습니다.
그렇다면 AI 기반으로 추천을 어떻게 받을 수 있을까?
직접 영상을 분석하는 방식이 아닌 다른 방식은 없을까? 고민해보았습니다. 유튜브 영 상은 대다수 자동으로 자막 (Caption)을 생성해주고 있습니다. 이러한 자막은 해당 영상의 내용을 담고 있습니다. 심지어 한국어의 경우 자동으로 음성을 인식해서 생성됩니다.
자막 파일을 GPT에게 물어보기
ChatGPT
- 유재석's mini핑계고 episode with 다비치 (이해리, 강민경) at the 뜬뜬편집실 (OneCam) is featured on YouTube.
- The video was shot about a week ago at the 뜬뜬 office, where 유재석 and 다비치 members, 이해리 and 강민경, meet.
- They discuss upcoming events, including the 1st 핑계고 Awards, where subscribers will vote for awards like 대상 (Grand Prize) and 작품상 (Best Work Award).
- 유재석 mentions potential candidates for the awards, including 조셉과 석삼이 형 (Joseph and Seok-sam), and highlights the unpredictability of the awards.
- The conversation shifts to the passage of time, with 유재석 reflecting on the speed of time, aging, and adapting to different stages of life, adding a humorous touch to the discussion.
자막 기반으로 내용을 추론하기 때문에, 다비치 편에서 시청자들이 가장 많이 다시 본 장면과는 상이한 결과를 얻을 수 있었습니다. 물론 이를 질의하기 위한 prompt 튜닝을 통해 적절한 결과를 얻을 수 있긴 합니다.
추가로 재미있는 구간을 어떻게 찾을 것인가?
유튜브 댓글을 크롤링해서 데이터를 추출해봅니다. 특히 `타임스탬프` 가 있는 댓글 위주로 정리해보면 위와 같이 댓글 내용 중 재생 시간을 포함한 댓글이 있습니다. 이러한 데이터는 사용자의 실제 재생을 통한 경험에 의한 구간으로 명시해서 데이터를 시각화 해봅니다.
댓글 데이터 기반으로 분/초를 잡고서 구간을 설정해보았습니다. 색이 진하면 해당 댓글의 좋아요 수 가 높습니다. 즉, 해당 시간대에 많은 사람들이 공감을 하는 것을 볼 수 있습니다.
숏폼은 60초 내로 만들어야한다.
숏폼은 60초 내의 영상을 만들어야하기 때문에 앞서 2가지 방법으로 추론한 “숏폼 형태”에 적합한 구간을 찾을 수 있었습니다. 사실 AI만으로도 충분(?)할 수 있지만, 실제 사용자의 반응이 많이 일어난 구간을 찾아주는게 실제 서비스의 목표가 아닐까 생각하여 2가지 방법을 혼합하여 숏폼 구간을 추천해주는 사이드 프로젝트를 만들어보았습니다.
사이드프로젝트로 만들어보았지만, ChatGPT와 데이터를 혼합해서 추론하는 과정이 즐거운 경험이었습니다. 그동안 지피터스 커뮤니티 글만 읽었지, 실제 제 경험을 공유한 적은 별로 없었는데 이번 기회에 공유할 수 있게 되어 좋습니다. 😃
[Jaden’s 프로젝트 회고록]
https://jadecon.notion.site/99e6f0d1f2904a069d842210ec990a3c?pvs=74