소개
웹툰/웹소설/영화 소스를 넣으면 30~60초 작품 설명형 숏폼이 자동으로 만들어지는 파이프라인을 만들고 있습니다.
▎ 왜 만들었나?
두 가지 궁금증에서 시작했습니다.
1) AI 에이전트 자동화가 어디까지 되는지 실험해 보고 싶었습니다.
텍스트 → 이미지 → 음성 → 영상 → 최종 렌더링까지,
AI가 90% 하고 인간이 10%만 터치하면 퀄리티 있는 숏폼이 나올 수 있을까?
2) 숏폼 수익으로 AI 도구 비용을 상쇄하고 싶었습니다.
Claude Code, ElevenLabs, Runway 등 매달 나가는 AI 비용이 적지 않은데,
이걸 콘텐츠 수익으로 돌릴 수 있다면?
▎ 채널 포지션
"이 작품이 재밌는 이유" — 작품의 줄거리를 요약하는 게 아니라, 왜 봐야 하는지를 설명하는 형태입니다. 저작권 리스크도 줄이고, 시청자에게 실제로 유용한 콘텐츠를 만들 수 있는 포지션이라고 판단했습니다.
진행 방법
▎ 전체 아키텍처
Notion에 원소스(웹툰/웹소설 정보)를 정리하면, 8단계 파이프라인이 릴레이처럼 돌아갑니다.
Step 0 Notion 수집 → 원소스 텍스트/이미지 가져오기
Step 1 기획 및 구조화 → 장르 분석 + 숏폼 전략 수립 ⛳ 승인
Step 2 씬과 대본 → 내레이션 스크립트 + 씬 분할 ⛳ 승인
Step 3 이미지 + 음성 → AI 이미지 생성 + TTS 병렬 실행
Step 4 영상 생성 → Runway로 이미지→영상 변환
Step 5 렌더링 → FFmpeg로 영상+음성+자막 합성
Step 6 QA 검수 → AI가 품질 체크리스트 검사
Step 7 메타데이터 → YouTube 제목/설명/해시태그 생성
2번의 사람 승인 게이트가 있어서, AI가 만든 결과물을 확인하고 OK/반려할 수 있습니다.
반려하면 해당 단계만 다시 실행됩니다.
▎ 사용한 도구들
텍스트 AI Claude Sonnet 4 + instructor 기획, 대본, QA, 메타데이터
이미지 생성 Gemini 3 Pro (나노바나나) 9:16 비율 씬 이미지
영상 생성 Runway Gen-4 Turbo 이미지→영상 변환
음성 생성 ElevenLabs 한국어 TTS 내레이션
렌더링 FFmpeg 영상+음성+자막+BGM 합성
데이터베이스 Supabase (PostgreSQL) 실행 이력, 체크포인트
프론트엔드 FastAPI + Jinja2 + Alpine.js 웹 대시보드 3화면
원소스 관리 Notion API SSOT (Single Source of Truth)
▎ Tip 1: Audio-First 타임라인
보통 영상 제작은 비디오 길이를 먼저 정하지만, 이 파이프라인은 음성(TTS)을 먼저 생성하고, 그 길이에 맞춰 영상을 만듭니다.
TTS 음성 생성 (3.5초) → 영상도 3.5초로 생성 → 자막도 3.5초에 맞춰 싱크
이렇게 하면 내레이션과 영상의 싱크가 절대 어긋나지 않습니다.
마치 노래에 맞춰 뮤직비디오를 편집하는 것과 같은 원리입니다.
▎ Tip 2: 체크포인트 시스템
이미지 생성이나 Runway 영상 변환은 비용이 비쌉니다. 만약 Step 5(렌더링)에서 실패하면, Step 3(이미지)부터 다시 돌려야 하는걸 하지않고 각 단계의 결과물을 DB에 JSONB로 저장해두고, 실패한 단계부터만 재실행합니다.
▎ 프롬프트 예시: 숏폼 기획 에이전트
Claude에게 "숏폼 전략가" 역할을 부여합니다. 5가지 훅 공식 중 최적의 것을 선택하도록:
concept_line 작성 시 아래 훅 공식 참고:
A. 설정 + 예외: "평범한 [장르]인데, [말도 안 되는 상황]"
B. 억울함 + 보복 예고: "[주인공]은 망가졌지만, 이때부터 판이 뒤집힌다"
C. 질문 + 즉시 힌트: "왜 모두가 이 사람을 두려워할까? 이유는 단 하나다"
D. 평가 + 근거 예고: "이 작품이 미친 이유는 [겉보기]가 아니라 [진짜 이유]"
E. 명장면 선배치: "이 장면 하나로 이 작품을 봐야 할 이유가 끝납니다"
▎ 웹 대시보드
3개 화면으로 구성됩니다.
1) 대시보드: Notion URL 입력 → 파이프라인 실행 + 최근 실행 목록
2) 프로젝트 상세: 8단계 진행 바 + 실시간 SSE 업데이트 + 승인/반려 버튼
3) 리뷰: 완성된 영상 미리보기 + QA 체크리스트 + 최종 승인
결과와 배운 점
▎ 예상 비용: 영상 1개당 약 $2.84
Claude API (기획+대본+QA+메타) ~$0.30
Gemini 이미지 (8장 기준) ~$1.07
Runway 영상 (40초 기준) ~$2.00
ElevenLabs TTS ~$0.15
FFmpeg 렌더링 $0 (로컬)
─────────────────────────────────────────
합계: 약 $2.84/영상 (환율에 따라 약 3,800원) 이제 어떻게 비용을 줄이지 ㅠㅠ
▎ 배운 점
1) AI 80% + 인간 20%가 아직은 현실적인 비율.
AI가 초안을 만들고, 사람이 2번 체크하는 구조가 품질과 효율의 균형점이었습니다.
100% 자동화를 시도하면 퀄리티가 급격히 떨어집니다.
2) Audio-First가 정답이었습니다.
처음에는 영상 길이를 먼저 정하고 음성을 맞추려 했는데, 싱크가 계속 어긋났습니다.
음성을 먼저 만들고 그 길이에 영상을 맞추니 문제가 사라졌습니다.
3) 체크포인트 시스템은 필수입니다.
Runway API 한 번 호출에 $1 이상 들 수 있는데,
뒤 단계에서 실패할 때마다 처음부터 다시 돌리면 비용이 기하급수적으로 늘어납니다.
4) Test, Test, Test.
▎ 앞으로의 계획
- 검증된 숏폼 템플릿 시스템 (장르별 최적화된 프롬프트 프리셋)
- 실제 YouTube/TikTok 업로드 자동화
- A/B 테스트로 훅 공식별 성과 측정
- 궁극적으로 하루 1~5개 숏폼을 혼자서 지속 가능하게 생산하는 것이 목표