웹툰 하나 넣으면 숏폼이 나온다 — AI 에이전트 8명이 릴레이로 만드는 영상 공장

소개

웹툰/웹소설/영화 소스를 넣으면 30~60초 작품 설명형 숏폼이 자동으로 만들어지는 파이프라인을 만들고 있습니다.

▎ 왜 만들었나?

두 가지 궁금증에서 시작했습니다.

1) AI 에이전트 자동화가 어디까지 되는지 실험해 보고 싶었습니다.

텍스트 → 이미지 → 음성 → 영상 → 최종 렌더링까지,

AI가 90% 하고 인간이 10%만 터치하면 퀄리티 있는 숏폼이 나올 수 있을까?

2) 숏폼 수익으로 AI 도구 비용을 상쇄하고 싶었습니다.

Claude Code, ElevenLabs, Runway 등 매달 나가는 AI 비용이 적지 않은데,

이걸 콘텐츠 수익으로 돌릴 수 있다면?

▎ 채널 포지션

"이 작품이 재밌는 이유" — 작품의 줄거리를 요약하는 게 아니라, 왜 봐야 하는지를 설명하는 형태입니다. 저작권 리스크도 줄이고, 시청자에게 실제로 유용한 콘텐츠를 만들 수 있는 포지션이라고 판단했습니다.

진행 방법

▎ 전체 아키텍처

Notion에 원소스(웹툰/웹소설 정보)를 정리하면, 8단계 파이프라인이 릴레이처럼 돌아갑니다.

Step 0 Notion 수집 → 원소스 텍스트/이미지 가져오기

Step 1 기획 및 구조화 → 장르 분석 + 숏폼 전략 수립 ⛳ 승인

Step 2 씬과 대본 → 내레이션 스크립트 + 씬 분할 ⛳ 승인

Step 3 이미지 + 음성 → AI 이미지 생성 + TTS 병렬 실행

Step 4 영상 생성 → Runway로 이미지→영상 변환

Step 5 렌더링 → FFmpeg로 영상+음성+자막 합성

Step 6 QA 검수 → AI가 품질 체크리스트 검사

Step 7 메타데이터 → YouTube 제목/설명/해시태그 생성

2번의 사람 승인 게이트가 있어서, AI가 만든 결과물을 확인하고 OK/반려할 수 있습니다.

반려하면 해당 단계만 다시 실행됩니다.

▎ 사용한 도구들

텍스트 AI Claude Sonnet 4 + instructor 기획, 대본, QA, 메타데이터

이미지 생성 Gemini 3 Pro (나노바나나) 9:16 비율 씬 이미지

영상 생성 Runway Gen-4 Turbo 이미지→영상 변환

음성 생성 ElevenLabs 한국어 TTS 내레이션

렌더링 FFmpeg 영상+음성+자막+BGM 합성

데이터베이스 Supabase (PostgreSQL) 실행 이력, 체크포인트

프론트엔드 FastAPI + Jinja2 + Alpine.js 웹 대시보드 3화면

원소스 관리 Notion API SSOT (Single Source of Truth)

▎ Tip 1: Audio-First 타임라인

보통 영상 제작은 비디오 길이를 먼저 정하지만, 이 파이프라인은 음성(TTS)을 먼저 생성하고, 그 길이에 맞춰 영상을 만듭니다.

TTS 음성 생성 (3.5초) → 영상도 3.5초로 생성 → 자막도 3.5초에 맞춰 싱크

이렇게 하면 내레이션과 영상의 싱크가 절대 어긋나지 않습니다.

마치 노래에 맞춰 뮤직비디오를 편집하는 것과 같은 원리입니다.

▎ Tip 2: 체크포인트 시스템

이미지 생성이나 Runway 영상 변환은 비용이 비쌉니다. 만약 Step 5(렌더링)에서 실패하면, Step 3(이미지)부터 다시 돌려야 하는걸 하지않고 각 단계의 결과물을 DB에 JSONB로 저장해두고, 실패한 단계부터만 재실행합니다.

▎ 프롬프트 예시: 숏폼 기획 에이전트

Claude에게 "숏폼 전략가" 역할을 부여합니다. 5가지 훅 공식 중 최적의 것을 선택하도록:

concept_line 작성 시 아래 훅 공식 참고:

A. 설정 + 예외: "평범한 [장르]인데, [말도 안 되는 상황]"

B. 억울함 + 보복 예고: "[주인공]은 망가졌지만, 이때부터 판이 뒤집힌다"

C. 질문 + 즉시 힌트: "왜 모두가 이 사람을 두려워할까? 이유는 단 하나다"

D. 평가 + 근거 예고: "이 작품이 미친 이유는 [겉보기]가 아니라 [진짜 이유]"

E. 명장면 선배치: "이 장면 하나로 이 작품을 봐야 할 이유가 끝납니다"

▎ 웹 대시보드

3개 화면으로 구성됩니다.

1) 대시보드: Notion URL 입력 → 파이프라인 실행 + 최근 실행 목록

2) 프로젝트 상세: 8단계 진행 바 + 실시간 SSE 업데이트 + 승인/반려 버튼

3) 리뷰: 완성된 영상 미리보기 + QA 체크리스트 + 최종 승인

결과와 배운 점

▎ 예상 비용: 영상 1개당 약 $2.84

Claude API (기획+대본+QA+메타) ~$0.30

Gemini 이미지 (8장 기준) ~$1.07

Runway 영상 (40초 기준) ~$2.00

ElevenLabs TTS ~$0.15

FFmpeg 렌더링 $0 (로컬)

─────────────────────────────────────────

합계: 약 $2.84/영상 (환율에 따라 약 3,800원) 이제 어떻게 비용을 줄이지 ㅠㅠ

▎ 배운 점

1) AI 80% + 인간 20%가 아직은 현실적인 비율.

AI가 초안을 만들고, 사람이 2번 체크하는 구조가 품질과 효율의 균형점이었습니다.

100% 자동화를 시도하면 퀄리티가 급격히 떨어집니다.

2) Audio-First가 정답이었습니다.

처음에는 영상 길이를 먼저 정하고 음성을 맞추려 했는데, 싱크가 계속 어긋났습니다.

음성을 먼저 만들고 그 길이에 영상을 맞추니 문제가 사라졌습니다.

3) 체크포인트 시스템은 필수입니다.

Runway API 한 번 호출에 $1 이상 들 수 있는데,

뒤 단계에서 실패할 때마다 처음부터 다시 돌리면 비용이 기하급수적으로 늘어납니다.

4) Test, Test, Test.

▎ 앞으로의 계획

- 검증된 숏폼 템플릿 시스템 (장르별 최적화된 프롬프트 프리셋)

- 실제 YouTube/TikTok 업로드 자동화

- A/B 테스트로 훅 공식별 성과 측정

- 궁극적으로 하루 1~5개 숏폼을 혼자서 지속 가능하게 생산하는 것이 목표

양복을 입은 남자가 한 무리의 사람들 앞에 서 있다
한국어 텍스트가 있는 페이지의 스크린샷
1
1개의 답글

뉴스레터 무료 구독

👉 이 게시글도 읽어보세요