유튜브 자막에서 AI 팟캐스트 동영상까지 완전 자동화 파이프라인 구축하기

소개

유튜브 자막에서 AI 팟캐스트 동영상까지 완전 자동화 파이프라인 구축하기

유튜브에 올라오는 AI 관련 영상들의 정보를 활용해서 2인이 진행하는 팟캐스트 형식의 동영상을 자동으로 생성하는 시스템을 만들고 싶었습니다. 단순히 텍스트나 오디오만이 아닌, 실제 사람처럼 말하고 상호작용하는 영상까지 생성하여 AI 정보를 더 친근하고 이해하기 쉽게 전달하고자 했습니다.

최종 목표는 유튜브 URL 하나만 입력하면 → 노바(남성 진행자)와 제니(AI 전문가)가 출연하는 완성된 팟캐스트 영상이 자동으로 나오는 시스템을 구축하는 것이었습니다.

https://github.com/MeiGen-AI/MultiTalk

진행 방법

1단계: 콘텐츠 분석 및 대본 생성

도구: Claude Code + Windsurf

유튜브 자막에서 AI 관련 핵심 정보를 추출
2인 팟캐스트 대본 자동 생성 (노바와 제니의 대화 형식)
간단한 prd, trd를 생성하고 claude code 와 windsurf를 사용해서 개발

2단계: 음성 생성

도구: Google Gemini TTS
참고: https://www.gpters.org/dev/post/creating-ai-podcast-gemini-yx2YPB9mziVjpzd

https://www.gpters.org/dev/post/creating-ai-podcast-gemini-yx2YPB9mziVjpzd

각 화자별로 구분된 대본을 바탕으로 개별 wav 파일 생성

노바: 남성 음성 (팟캐스트 진행자)
제니: 여성 음성 (AI 전문가 컨셉)

3단계: 캐릭터 이미지 생성

도구: ChatGPT 이미지 생성 기능

총 3장의 이미지 제작:

노바 단독 이미지
제니 단독 이미지
노바+제니 함께 있는 이미지

4단계: 동영상 생성

도구: MultiTalk (MeiGen-AI)

WSL Ubuntu 환경에서 MultiTalk을 설치하고, 저사양 모드 옵션으로 설정하여 동영상 생성을 진행했습니다.

영상 구성 전략:

시작 부분: 2명 함께 이미지 + 인사/자기소개
대화 부분: 화자별 단독 이미지로 자연스러운 전환

결과와 배운 점

성공 사항

✅ 1인 동영상 생성 테스트 성공: 직접 녹음한 wav 파일로 립싱크가 정확한 동영상 생성 확인
✅ 전체 파이프라인 구축 완료: 유튜브 자막 → 대본 → 음성 → 이미지 → 동영상까지 연결
✅ 2인 동시 영상 생성 진행 중: Gemini TTS로 생성한 음성으로 테스트 중

정지 이미지 + 녹음된 음성 → 동영상 생성

{
    "prompt": "A friendly cartoon dog character with round glasses is cheerfully waving hello with a warm smile. The dog has brown floppy ears, a yellow-orange body, and wears black round-rimmed glasses. One paw is raised in a welcoming wave gesture while the other holds a pencil. There's an open green book in front of the dog. The character has an enthusiastic and inviting expression with bright, kind eyes behind the glasses. The background features a dreamy space scene with a bright sun, twinkling stars, floating clouds, and a small rocket ship, creating a whimsical and educational atmosphere. The lighting is warm and golden, giving the scene a cozy, friendly feeling perfect for greeting viewers.",
    "cond_image": "examples/single/single2.png",
    "cond_audio": {
        "person1": "examples/single/2.wav"
    }
}

주요 시행착오와 해결책

1. Windows 설치 실패

문제: flash_attn, xformers 등 라이브러리 호환성 이슈
해결: WSL Ubuntu 환경으로 전환하여 성공적으로 설치

2. VRAM 인식 문제

문제: RTX 3090 24GB임에도 WSL에서 VRAM 부족으로 인식
임시 해결: 저사양 모드(int8 양자화, TeaCache 등) 활용
근본 해결 계획: 네이티브 Linux 또는 클라우드 GPU 활용

꿀팁

Claude Code의 plan 모드 적극 활용: 복잡한 파이프라인 구축 시 계획-검토-실행 사이클이 매우 효과적
WSL 환경 구축: Windows에서 AI 모델 실행 시 호환성 문제 해결의 좋은 대안
단계별 테스트: 간단한 것부터 순자적으로 개발하고 검증

현재 진행 상황 및 향후 계획

현재: 2인 동시 영상 생성 테스트 중 (속도 이슈로 시간 소요)

단기 목표:

각 개별 동영상 클립 생성 완료
Python 기반 영상 합치기 프로그램 개발
첫 번째 완성된 팟캐스트 영상 제작

장기 목표:

RunPod / Vast.ai 등 클라우드 GPU로 테스트
완전 자동화: 유튜브 URL 입력 → 팟캐스트 영상 자동 생성
TTS 엔진 변경 → 일레븐랩스

도움이 필요한 부분

MultiTalk 2인 영상 생성 속도 개선 팁
데스트탑에서 효과적인 리눅스 환경 구축 방법

참고

https://arxiv.org/abs/2505.22647

https://arxiv.org/abs/2505.22647

20개의 주제를 확인해보세요! AI 스터디 슈퍼 얼리버드 시작🕊️

유튜브 자막에서 AI 팟캐스트 동영상까지 완전 자동화 파이프라인 구축하기 - POC 진행 중

소개