[Claude Code] 숏폼 드라마 생성 시스템 만들기 v1

[Claude Code] AI로 12초 숏폼 영상을 만들어봤다 — $3.36에 알게 된 현실

📝 한줄 요약

숏폼드라마 제작 파이프라인을 AI로 구축하고, 실제로 12초짜리 동물 숏폼 영상을 만들어봤다. 파이프라인은 하루 만에 완성됐지만, AI 영상 생성에는 명확한 한계가 있었다.

바쁘시면 이것만 읽어도 돼요:

Claude Code로 숏폼드라마 7단계 제작 파이프라인 + 이미지/영상/효과음/조립 스크립트를 구축
Google AI 공식 문서 URL을 던져줬더니 이미지 생성 스크립트를 알아서 만들어줌
Perplexity로 비용 비교한 결과를 Claude Code에 넘기니 영상 생성 파이프라인까지 한 번에 구축
실제 영상을 만들어보니 AI 영상 생성의 한계가 명확 — 카메라가 마음대로 움직이고, 없는 물체를 억지로 만들어냄
모션 프롬프트에 "카메라 고정"을 반드시 명시해야 한다
이미지에 없는 오브젝트는 영상에서 자연스럽게 등장시킬 수 없다
비싼 영상 변환 전에 이미지를 여러 장 뽑아서 골라라 — 이미지는 거의 무료, 영상은 건당 $0.28

🎯 이런 분들께 도움돼요

AI로 숏폼 콘텐츠를 만들어보고 싶은데, 실제 비용과 품질이 궁금한 분
AI 영상 생성 도구를 써볼까 고민 중인데, 어디까지 되는지 현실적으로 알고 싶은 분
레퍼런스 문서나 다른 AI의 조사 결과를 활용해서 개발 효율을 높이고 싶은 분

😫 문제 상황 (Before)

MeowMeow AI 같은 동물 의인화 숏폼 콘텐츠가 눈에 들어왔다. AI 도구들을 활용해서 비슷한 걸 만들 수 있을까? 직접 해보고 싶었다.

문제는 숏폼드라마 제작이 단순히 영상 하나 만드는 게 아니라는 점이었다. 기획 → 시나리오 → 대본 → 이미지 생성 → 영상 변환 → 효과음 → BGM → 조립까지, 각 단계마다 필요한 도구도 다르고 문서 양식도 다르다. 이걸 처음부터 하나씩 세팅하려면 며칠은 잡아야 할 일이었다.

그리고 솔직히 궁금했다. AI 영상 생성이 요즘 핫하다고 하는데, 실제로 만들어보면 어느 정도 수준이 나올까? 비용은? 한계는?

직접 해봐야 알 수 있었다.

🛠️ 사용한 도구

Claude Code (Claude Opus 4.6) — 전체 파이프라인 구축 및 실행
Gemini 3 Pro — 이미지 생성
fal.ai (Hailuo 2.3) — 이미지→영상 변환
CassetteAI (via fal.ai) — 효과음, BGM 생성
ffmpeg — 영상 조립
Perplexity — 영상 생성 모델 비용 비교 조사

🔧 작업 과정

프로젝트 뼈대 세우기 — "한 마디에 7단계가 생겼다"

처음 시작은 간단했다. 숏폼드라마 작업을 할 거라고 말하고 기본 설정을 부탁했다.

숏폼드라마 작업을 할거야. 기본 설정 부탁해.

Claude Code가 먼저 프로젝트의 목적과 범위를 물어봤다. "기획부터 영상제작까지 전체 파이프라인"이라고 답하자, 바로 작업에 들어갔다.

결과물이 나왔을 때 좀 놀랐다. 7단계 순차 폴더가 만들어졌고, 기획서 템플릿, 대본 템플릿, 촬영대본 템플릿까지 3종이 한 번에 생성됐다. 기획서 템플릿에는 컨셉, 로그라인, 시놉시스, 캐릭터 설정, 에피소드 구성표까지 들어있었다.

전체 구조를 먼저 잡아달라고 한 게 주효했다. 이후 작업을 할 때 "이건 프리프로덕션 폴더에 넣어야겠다"는 식으로 자연스럽게 정리가 됐다.

이미지 생성 시스템 구축 — "문서 URL 하나로 끝났다"

다음은 이미지 생성 환경이었다. Gemini 3 Pro를 사용할 거라고 말하면서, Google AI 공식 문서 링크를 함께 던져줬다.

이미지 제작은 Gemini 3 Pro를 사용할 거야. 레퍼런스 이미지를 많이 활용할거야. 아래 사이트 참조해
---
https://ai.google.dev/gemini-api/docs/image-generation

이게 핵심이었다. Claude Code가 해당 문서를 읽고 API 스펙(지원 비율, 해상도, 레퍼런스 이미지 최대 개수 등)을 파악한 뒤, 거기에 맞춰서 이미지 생성 스크립트를 만들었다. 단일 이미지 생성과 배치 생성 기능이 모두 포함됐고, 4가지 시나리오별 사용 가이드까지 자동으로 작성해줬다.

직접 문서를 읽고 코드를 짰다면 반나절은 걸렸을 텐데, 레퍼런스 문서를 던져준 덕에 정확한 파라미터 값과 제약 조건이 반영된 결과물이 바로 나왔다.

API 테스트 — "삽질도 같이 해결"

만들어진 스크립트가 실제로 돌아가는지 테스트하는 과정에서 약간의 삽질이 있었다.

API 키 작동 테스트해 보자. 레퍼런스 이미지의 고양이 만들어줘

Windows 환경에서 Python 명령어가 동작하지 않는 문제가 있었다. Claude Code가 여러 방법을 시도하다가 해결책을 스스로 찾아냈다. 환경 파일 설정 문제도 있었는데, 이것도 디버깅해서 해결해줬다.

유료 플랜 전환 후 재테스트했더니 주황 줄무늬 고양이 이미지가 성공적으로 생성됐다. API 연동부터 트러블슈팅까지 같이 해결하니까 혼자 할 때보다 훨씬 빠르게 넘어갈 수 있었다.

영상 생성 모델 선정 — "Perplexity 결과를 그대로 던졌다"

영상 생성 모델을 골라야 했다. 6종 모델 비교까지 해뒀지만, 실제로 어떤 플랫폼에서 어떤 모델을 쓸지는 아직 정하지 않은 상태였다. Perplexity에 비용 비교를 자세히 물어봤고, 그 결과를 Claude Code에 그대로 붙여넣었다.

구분

플랫폼/모델

과금 구조

15초 1개 예상 비용

월 30개 예상 비용

특징

저렴한 축

fal – Hailuo 2.3

초당 약 0.0467달러 (6초 0.28달러 기준)

약 0.70달러

약 21달러

속도·품질 균형, 실험/일상 숏폼에 적합. fal+1

저렴한 축

fal – Wan 2.5

초당 0.05달러

0.75달러

22.5달러

모션·퀄리티 괜찮으면서 단가 낮음. fal

중간 축

Pika (Pro 플랜)

월 35달러에 2,300 크레딧, 15초 ≈ 100크레딧 가정

약 1.5달러 수준(크레딧 단가 환산)

월 30개면 3,000 크레딧 필요 → 35달러+추가 크레딧

구독+크레딧 혼합, 편의성 좋지만 동일 패턴이면 fal보다 약간 비쌈. eesel+1

중간~고급

Runway Gen-3 (Veo 포함)

월 28달러 Pro + 크레딧, Veo 3는 초당 40크레딧(15초 600크레딧)

대략 2~6달러/15초 (플랜·추가 크레딧에 따라)

월 60~180달러까지 가능

브랜드/광고용 고퀄, 대신 비용 급상승. smartremotegigs+2

고급 축

fal – Veo 3

초당 0.4달러

6달러

180달러

최상급 퀄리티, 테스트 컷 위주로 쓰는 용도. fal+1

결론은 fal.ai를 통합 플랫폼으로 쓰기로 했다. fal.ai 하나면 Hailuo, Wan, Kling 등 여러 영상 모델을 한 계정에서 전환할 수 있고, 하루 1개(15초) 기준으로 월 $20 정도면 된다.

Perplexity로 조사한 내용을 Claude Code에 던져주니까, 모델 선정부터 스크립트 구축까지 한 번에 진행됐다. AI 도구끼리 릴레이하는 느낌이었다.

파이프라인 완성 — "이미지부터 최종 영상까지"

Claude Code가 영상 생성, 효과음, 조립 스크립트를 만들었다. 기존 이미지 생성 스크립트와 같은 패턴이라 일관성이 있었다. ffmpeg도 설치하고, 테스트 이미지로 영상 변환을 돌려봤더니 실제로 영상이 나왔다. 전체 파이프라인이 연결된 순간이었다.

이미지 생성(Gemini) → 영상 변환(fal.ai) → 효과음(CassetteAI) → 조립(ffmpeg) → 최종 MP4

EP01 제작 — "기획부터 완성까지 한 세션에"

파이프라인이 준비됐으니 실제 에피소드를 만들어봤다. 주제는 "야식" — 고양이(나비)와 코기(뭉치)가 밤에 냉장고를 습격하는 이야기.

기획서, 대본을 작성하고 4개 씬의 이미지를 배치 생성한 뒤, 영상으로 변환하고, 효과음과 BGM을 합성해서 최종 영상을 만들었다.

결과물이 나오긴 했다. 하지만 만족스럽지는 않았다. 씬마다 캐릭터 외형이 미묘하게 달랐고, 영상 클립 간 연결이 자연스럽지 않았다. "돌아가긴 하는데, 이걸 숏폼이라고 올릴 수 있나?"라는 생각이 들었다.

레퍼런스 재현 — "벤치마킹 영상을 따라 만들어보자"

품질을 올리려면 기준이 필요했다. 벤치마킹했던 MeowMeow AI의 12초 영상을 그대로 재현해보기로 했다. 원본이 있으니 비교가 가능하고, 뭐가 부족한지 명확히 알 수 있을 거라 생각했다.

레퍼런스 영상을 프레임 단위로 분석해서 스토리를 4파트로 나눴다:

파트 A (0~3초): 고양이와 코기가 침대에서 폰을 같이 봄
파트 B (3~6초): 주인 등장, 폰을 뺏어감
파트 C (6~9초): 코기가 슬퍼하고, 고양이가 토닥여줌
파트 D (9~12초): 고양이가 베개 밑에서 새 폰을 꺼냄 (반전!)

여기서 첫 번째 현실을 만났다. Hailuo 모델은 최대 6초까지만 생성한다. 12초 영상을 만들려면 클립 2개를 만들어서 이어붙여야 했다.

카메라가 마음대로 움직인다

이미지를 만들고, 영상 변환을 돌렸다. 그런데 결과가 이상했다. 모션 프롬프트에 "베개 밑에서 폰을 꺼낸다"고 썼더니, 카메라가 우측으로 패닝하면서 화면 밖으로 나간 뒤 베개가 갑자기 새로 생겨나고, 그 위에 폰이 툭 나타났다.

원인을 분석해보니 두 가지 문제였다:

카메라 제어를 명시하지 않으면 AI가 알아서 카메라를 움직인다 — 가만히 있으라는 말을 안 하면 패닝, 줌 등을 멋대로 한다
이미지에 없는 물체는 자연스럽게 등장시킬 수 없다 — "베개 밑에서 폰을 꺼낸다"고 해도, 이미지에 베개 밑 폰이 없으면 AI가 억지로 만들어낸다

모션 프롬프트를 수정했다:

[수정 전] The cat reaches under the pillow and pulls out a smartphone.
[수정 후] Static camera, no panning. The cat pats the corgi's back, then reaches left toward the pillow and slides out a hidden smartphone.

Static camera, no panning을 넣고, 방향을 명시하니 훨씬 나아졌다. 완벽하지는 않았지만, 적어도 카메라가 제자리에 있었다.

(영상 업로드가 되지 않는다...ㅠ)

$3.36의 내역

전체 실험에 들어간 비용을 정리했다:

항목

수량

단가

소계

영상 변환 (Hailuo 2.3)

5건

$0.28

$1.40

효과음 (CassetteAI)

5건

$0.01

$0.05

BGM (CassetteAI)

1건

$0.01

기타 (테스트/다른 모델)

—

$1.90

합계

$3.36

영상 변환이 비용의 대부분이었다. 건당 $0.28이 싸 보이지만, 마음에 안 들어서 재생성하면 바로 2배, 3배가 된다. 반면 효과음은 건당 $0.01이라 부담이 없었다.

✅ 결과 (After)

Before vs After

항목

Before

After

제작 환경

없음

7단계 파이프라인 + 이미지/영상/효과음/조립 스크립트

이미지 생성

없음

Gemini 3 Pro 스크립트 + 4시나리오 가이드

영상 생성

없음

fal.ai 통합 (Hailuo 기본, Wan/Kling 전환 가능)

AI 영상 품질 기대

"꽤 괜찮겠지?"

한계가 명확함 — 카메라 제어, 동작 제어 모두 제한적

비용 감각

막연함

12초 영상 1편에 $0.62, 재시도 포함하면 $1~2

소요 시간

며칠 예상

파이프라인 구축 하루, 영상 제작 하루

결과물

숏폼드라마 7단계 제작 파이프라인 + 표준 템플릿 3종
이미지/영상/효과음/조립 스크립트 4종
MeowMeow AI 스타일 레퍼런스 재현 영상 (11.25초, SFX + BGM 포함)
EP01 "야식" 프로토타입 영상 (4씬, 12.7초)

💬 이 과정에서 배운 AI 활용 팁

효과적이었던 것

레퍼런스 문서를 직접 던져주기 — API 문서 URL을 함께 주니까 정확한 스펙이 반영된 코드가 나왔다. "이미지 생성 스크립트 만들어줘"라고만 했으면 공식 스펙과 맞지 않는 결과물이 나왔을 것이다.
전체 구조를 먼저 잡기 — "전체 파이프라인 세팅해줘"로 시작하니까 이후 세부 작업이 기존 구조 안에서 자연스럽게 정리됐다.
다른 AI의 조사 결과를 그대로 넘기기 — Perplexity로 비용 비교한 결과를 Claude Code에 붙여넣었더니, 모델 선정부터 스크립트 구축까지 한 번에 진행됐다. AI끼리 릴레이하면 효율이 좋다.
모션 프롬프트에 카메라 제어 필수 — Static camera, no panning을 넣지 않으면 AI가 마음대로 카메라를 움직인다. 방향도 명시해야 한다.
비싼 단계 전에 싼 단계에서 걸러내기 — 이미지 생성은 거의 무료이고 영상 변환은 건당 $0.28이다. 이미지를 3~5장 뽑아서 베스트를 고른 뒤 영상으로 넘기면 재시도 비용을 줄일 수 있다.

이렇게 하면 안 돼요

환경 설정을 건너뛰지 말 것 — API 키, 파이썬 환경 같은 기본 설정이 안 돼 있으면 아무리 좋은 스크립트도 돌아가지 않는다. 테스트를 먼저 하는 게 좋다.
계획 없이 바로 생성하지 말 것 — 이미지 프롬프트, 모션 프롬프트, 씬 구성을 미리 정하지 않고 "일단 만들어봐"를 하면 돈만 날린다. 12초 영상이라도 스토리보드가 필요하다.
이미지에 없는 물체를 영상에서 등장시키려 하지 말 것 — AI 영상 생성은 "없는 걸 만들어내는" 게 아니라 "있는 걸 움직이는" 도구다. 필요한 소품은 이미지 단계에서 미리 넣어둬야 한다.
6초 안에 동작 3개를 넣으려 하지 말 것 — AI 영상 모델은 6초에 동작 1~2개가 한계다. 그 이상 넣으면 부자연스럽거나 일부가 생략된다.

🚀 앞으로의 계획

레퍼런스 영상과 동일한 수준의 후속 영상을 만들고, 이 전체 워크플로우를 재사용 가능한 스킬로 만들 계획이다. "주제 한 줄 입력하면 숏폼이 나오는" 자동화까지가 최종 목표.

20개의 주제를 확인해보세요! AI 스터디 슈퍼 얼리버드 시작🕊️