유튜브 자막에서 AI 팟캐스트 동영상까지 완전 자동화 파이프라인 구축하기 - POC 진행 중

소개

유튜브 자막에서 AI 팟캐스트 동영상까지 완전 자동화 파이프라인 구축하기

유튜브에 올라오는 AI 관련 영상들의 정보를 활용해서 2인이 진행하는 팟캐스트 형식의 동영상을 자동으로 생성하는 시스템을 만들고 싶었습니다. 단순히 텍스트나 오디오만이 아닌, 실제 사람처럼 말하고 상호작용하는 영상까지 생성하여 AI 정보를 더 친근하고 이해하기 쉽게 전달하고자 했습니다.

최종 목표는 유튜브 URL 하나만 입력하면 → 노바(남성 진행자)와 제니(AI 전문가)가 출연하는 완성된 팟캐스트 영상이 자동으로 나오는 시스템을 구축하는 것이었습니다.

https://github.com/MeiGen-AI/MultiTalk

진행 방법

1단계: 콘텐츠 분석 및 대본 생성

도구: Claude Code + Windsurf

  • 유튜브 자막에서 AI 관련 핵심 정보를 추출

  • 2인 팟캐스트 대본 자동 생성 (노바와 제니의 대화 형식)

  • 간단한 prd, trd를 생성하고 claude code 와 windsurf를 사용해서 개발

Manfest JS- 스크린 샷 1

2단계: 음성 생성

도구: Google Gemini TTS
참고: https://www.gpters.org/dev/post/creating-ai-podcast-gemini-yx2YPB9mziVjpzd

각 화자별로 구분된 대본을 바탕으로 개별 wav 파일 생성

  • 노바: 남성 음성 (팟캐스트 진행자)

  • 제니: 여성 음성 (AI 전문가 컨셉)

3단계: 캐릭터 이미지 생성

도구: ChatGPT 이미지 생성 기능

총 3장의 이미지 제작:

  • 노바 단독 이미지

    안경과 마이크를 곁들인 노란 개 그림
  • 제니 단독 이미지

    헤드폰이 마이크에 앉아있는 검은 고양이
  • 노바+제니 함께 있는 이미지

    고양이와 헤드폰이있는 개 만화 일러스�트

4단계: 동영상 생성

도구: MultiTalk (MeiGen-AI)

WSL Ubuntu 환경에서 MultiTalk을 설치하고, 저사양 모드 옵션으로 설정하여 동영상 생성을 진행했습니다.

영상 구성 전략:

  • 시작 부분: 2명 함께 이미지 + 인사/자기소개

  • 대화 부분: 화자별 단독 이미지로 자연스러운 전환

결과와 배운 점

성공 사항

1인 동영상 생성 테스트 성공: 직접 녹음한 wav 파일로 립싱크가 정확한 동영상 생성 확인
전체 파이프라인 구축 완료: 유튜브 자막 → 대본 → 음성 → 이미지 → 동영상까지 연결
2인 동시 영상 생성 진행 중: Gemini TTS로 생성한 음성으로 테스트 중

정지 이미지 + 녹음된 음성 → 동영상 생성

{
    "prompt": "A friendly cartoon dog character with round glasses is cheerfully waving hello with a warm smile. The dog has brown floppy ears, a yellow-orange body, and wears black round-rimmed glasses. One paw is raised in a welcoming wave gesture while the other holds a pencil. There's an open green book in front of the dog. The character has an enthusiastic and inviting expression with bright, kind eyes behind the glasses. The background features a dreamy space scene with a bright sun, twinkling stars, floating clouds, and a small rocket ship, creating a whimsical and educational atmosphere. The lighting is warm and golden, giving the scene a cozy, friendly feeling perfect for greeting viewers.",
    "cond_image": "examples/single/single2.png",
    "cond_audio": {
        "person1": "examples/single/2.wav"
    }
}

주요 시행착오와 해결책

1. Windows 설치 실패

  • 문제: flash_attn, xformers 등 라이브러리 호환성 이슈

  • 해결: WSL Ubuntu 환경으로 전환하여 성공적으로 설치

2. VRAM 인식 문제

  • 문제: RTX 3090 24GB임에도 WSL에서 VRAM 부족으로 인식

  • 임시 해결: 저사양 모드(int8 양자화, TeaCache 등) 활용

  • 근본 해결 계획: 네이티브 Linux 또는 클라우드 GPU 활용

꿀팁

  1. Claude Code의 plan 모드 적극 활용: 복잡한 파이프라인 구축 시 계획-검토-실행 사이클이 매우 효과적

  2. WSL 환경 구축: Windows에서 AI 모델 실행 시 호환성 문제 해결의 좋은 대안

  3. 단계별 테스트: 간단한 것부터 순자적으로 개발하고 검증

현재 진행 상황 및 향후 계획

현재: 2인 동시 영상 생성 테스트 중 (속도 이슈로 시간 소요)

단기 목표:

  • 각 개별 동영상 클립 생성 완료

  • Python 기반 영상 합치기 프로그램 개발

  • 첫 번째 완성된 팟캐스트 영상 제작

장기 목표:

  • RunPod / Vast.ai 등 클라우드 GPU로 테스트

  • 완전 자동화: 유튜브 URL 입력 → 팟캐스트 영상 자동 생성

  • TTS 엔진 변경 → 일레븐랩스

도움이 필요한 부분

  • MultiTalk 2인 영상 생성 속도 개선 팁

  • 데스트탑에서 효과적인 리눅스 환경 구축 방법

참고

2
1개의 답글

뉴스레터 무료 구독

👉 이 게시글도 읽어보세요