1. 소개
영화·드라마 기획과 제작을 본업으로 하고 있어서, 이 자동화 과정이 실무에서 어디까지 쓸 수 있는지가 궁금한 수강생입니다.
[1주차 글] AI 영상 자동화 파이프라인 구축기 — 고양이 이미지 생성에서 시작한 시행착오 기록
(https://www.gpters.org/nocode/post/ai-video-automation-pipeline-dKVUbgznY4VKPuW)
1주차에서는 파이프라인을 쪼개고, 고양이 영상으로 첫 테스트를 돌리고, prompt_builder가 호출되지 않는 버그를 잡는 과정까지를 다뤘다. 이번 글은 그 이후 이야기다.
1주차의 핵심 교훈은 "단계를 쪼개놓으면 문제를 빠르게 특정할 수 있다."였다.
2주차에는 쪼개진 파이프라인 위에서 실제로 42초 티저 영상을 완성하고, 피드백 관리 시스템을 만들기까지의 시행착오 과정을 다루고 있다.
지표
1주차
2주차
프로젝트
테스트영상
웹소설 티저
장르 드라마 씬 생성
애니메이션 티저(42초 내외)
완성 영상
8초 내외 씬별 영상
42초 Pixar 티저
최종 작업 후 자동화 영상 - 10초 실사 테스트
총 실비용
Veo 쿼터 소진 + API $40
fal.ai $3.25
2. 사용 도구
1주차에서 Claude Code + Gemini API + Veo를 사용했다.
2주차에서 달라진 점 :
도구
변화
Claude Code (Opus 4.6)
동일. 단, VS Code 확장으로 전환하여 터미널과 통합 사용
Python + moviepy/FFmpeg
영상 합성 등
Gemini API
Vertex AI(*비용 절감을 위해 GCP 크레딧 185만원)로 전환.
Veo
1주차에는 Veo만 단일 사용했으나 2주차에는 타 영상모델과 병행 사용
fal.ai (신규)
Kling 3.0 Pro, Grok 멀티모델 비교를 위함 사용
Google Lyria 3 (신규)
AI BGM 생성. 곡당 $0.08
주의점 : GCP에 185만원 크레딧이 있었는데, 정책상의 이유인지 Vertex AI에서 이미지 모델 접근 불가 + Veo 다운로드 미지원 + Lyria 미지원이었다. 같은 Google이어도 서비스마다 접근 권한이 다르다. (결국 해결하지 못했습니다.)
3. 진행 과정
2주차에서의 목표
2주차에는 1주차에 구축한 파이프라인을 실제 완성 단계까지 진행을 해보고, 다시 전체 파이프라인을 점검하는 것을 목표로 했다.
그 과정에서 *사전에 추가한 부분은 아래 내용이다.
1주차에서 Veo의 경우 실제 이미지 레퍼런스를 지정해도, 영상 중간에 실사 이미지로 바뀌는 이슈가 있었다. 이와 관련하여 우선 Veo 대신 fal.ai(Kling/Grok) 경유하도록 세팅했다.
수업 스터디장님의 도움으로, 기존 멀티 에이전트가 제대로 작동하지 않는다는 것을 재차 확인 — 에이전트 기능 재세팅, 기타 실행 중 불필요하게 토큰이 소모되는 과정 점검, 추후 클립 영상 합본을 위한 리모션 설치
프로젝트명 : 구두 신은 강아지의 모험 (애니메이션)
먼저, 제작할 애니메이션에 관한 간단한 콘셉트를 잡았다.
"장화 신은 고양이 시리즈처럼, <구두 신은 강아지> 애니메이션을 제작하려고 해. 이를 위한 스킬을 순서대로 진행시켜줘."
위 대화를 시작으로, 아래 스킬의 과정을 진행했다.
스킬 호출 구조
사용자 입력 (자연어)
│
▼
Claude Code (Opus)
│
├─ 키워드 매칭 ─→ SKILL.md의 description 필드
│ "대본 써줘" → script-writer
│ "BGM 붙여" → sound-mixer
│ "클립 합쳐" → video-assembler
│
▼
SKILL.md 로드 → Claude가 스킬 내 규칙대로 동작
│
├─ [순수 프롬프트형] Claude가 직접 텍스트 생성
│ 예: script-writer, script-collab-system
│
├─ [코드 실행형] Python 스크립트 호출
│ 예: reallife-image → core/agents.py
│ gemini-shortdrama-imagegen → core/generate.py
│
└─ [FFmpeg 실행형] 셸 명령 조합
예: video-assembler, sound-mixer
다만, 개인적으로 주요하게 고민했던 점은 영상 스킬 시행 전, 대본 단계에서 오류를 줄이자는 것이었다. 우선 퀄리티 있는 영상을 위해선 해당 부분에 관하여, 사용자의 의도가 얼마나 반영되는지가 평가 항목이었기에, 사전 준비가 가장 중요하다는 판단이었다.
따라서 처음 대본을 쓰는 과정에서 여러 번의 대화를 나눴다. 이후 아래와 같은 형식의 작품 전체 기획안 및 씬별 영상화 대본, 파이프라인 과정시 주안점 등이 생성됐다.
위와 같은 작품 브리프 보고서가 나왔다. 복잡해보이지만, 실제론 스토리흐름에 관한 사용자와의 대화를 기반으로 작품의 톤앤매너, 주요 흐름 등을 파악하고, AI가 전체 보고서를 작성해준 것이다. 위와 같은 요소를 위해, 개인적으론 첫 스킬인 script-writer 스킬과의 대화가 중요하단 생각이 들었다.
실제 사용했던 기획 단계(script-writer) 구조 예시