유튜브 자막에서 AI 팟캐스트 동영상까지 완전 자동화 파이프라인 구축하기 - POC 약간의 성공

소개

기존에 MultiTalk을 이용해서 단일 동영상 생성에는 성공했었는데, 이번에는 여러 개의 동영상을 자동으로 생성하고 하나로 병합하는 전체 파이프라인을 자동화해보고 싶었습니다.

수작업으로 여러 영상을 만드는 것보다 효율적인 방법을 찾고, 향후 대량의 콘텐츠 제작에 활용할 수 있는 워크플로우를 구축하는 것이 목표였습니다.

진행 방법

사용한 도구

  • MultiTalk: 동영상 생성 메인 도구

  • Ubuntu: 성능 개선을 위한 리눅스 환경

  • WSL: Windows에서 리눅스 환경 테스트

  • Rufus: Ubuntu 설치 USB 제작

  • Claude Code: 동영상 병합 프로그램 개발

진행 과정

1단계: 콘텐츠 분석 → 대본 생성 → 음성 생성 → 동영상 생성 테스트

https://www.gpters.org/dev/post/establishing-complete-automated-pipeline-hkqfbb2cXUf4Uvn

2단계: VRAM 부족 문제 해결

  • 생각보다 VRAM 사용량이 많아서 메모리 부족 에러 발생

  • 양자화(quantization) 옵션 적용

    --quant int8
  • VRAM 사용량을 줄이는 설정으로 변경

    --num_persistent_param_in_dit 0
  • TeaCache 설정 (빨라진 느낌 없음 → 워낙 느려서)

    --use_teacache

3단계: 성능 개선을 위한 환경 변경

  • Ubuntu 설치 후 테스트 → 큰 성능 개선 없음

  • NTFS 파일시스템에서 Linux 접근 시 I/O 속도 저하 문제

4단계: 그래서 시작했으니

  • 만들어진 영상들 중에 쓸만한 것들만 모아서 결과를...

  • 급하게 Claude Code로 영상 병합 파이썬 앱 개발

결과와 배운 점

최종 결과

  • 7개의 동영상 생성 후 성공적으로 병합 완료

  • 전체 파이프라인 자동화는 달성했지만 성능 이슈로 실용성은 제한적

    • ubuntu 환경에서도 큰 차이가 없어서 다른 이슈가 있는지 파악 필요

주요 시행착오

  1. 생각보다 VRAM이 많이 필요함 (주의 깊게 내용을 파악하지 않은 죄)

  2. 파일시스템 호환성: NTFS와 Linux의 궁합 문제로 예상보다 느린 속도

  3. 환경 최적화의 한계: Ubuntu 설치까지 했지만 근본적인 속도 개선은 어려웠음

나만의 꿀팁

  • Rufus 활용: Ubuntu 설치 USB 제작이 생각보다 간단함. 향후 딥러닝 프로젝트 테스트용으로 활용 예정

  • 파티션 크기: 저장공간 여유가 있다면 Ubuntu 파티션을 넉넉하게 잡는 것이 좋음 (NTFS 접근의 성능 이슈 때문)

  • Claude Code 활용: 급하게 필요한 유틸리티 개발에 매우 유용함

개선이 필요한 부분

  • 영상 생성 속도 최적화 방안 연구 필요

  • 더 효율적인 VRAM 관리 전략 개발

  • 파일시스템 최적화 또는 대안 환경 구축

앞으로의 계획

  • 설치한 Ubuntu 환경을 활용해 다른 딥러닝 프로젝트 테스트 진행

  • GPU 메모리 최적화 기법 더 깊이 연구

  • 클라우드 환경에서의 대안 솔루션 검토

  • 그래도 로컬 환경에서 영상 생성까지 가능하다는 가능성은 보게 됨 → 로컬 환경에서 가능한 영상이나 이미지 생성 쪽에 대해서 연구 진행

2

뉴스레터 무료 구독

👉 이 게시글도 읽어보세요