이미지, 영상, 나레이션, 편집까지 전부 AI — 숏폼 하나 만드는 데 5분이면 끝

[Claude Code] 이미지, 영상, 나레이션, 편집까지 전부 AI — 숏폼 하나 만드는 데 5분이면 끝

📝 한줄 요약

"한 줄 입력하면 숏폼 영상이 나온다" — AI 코딩 도구와 4시간 만에 만든 완전 자동 영상 생성 파이프라인 이야기.

바쁘시면 이것만 읽어도 돼요:

Claude Code로 숏폼 영상 자동 생성 파이프라인 구축, 반나절 걸리던 영상 제작이 5분으로 단축
반자동(EP01)에서 시작해서 완전 자동(EP02)까지 점진적으로 발전시킨 과정
API 키 하나(Gemini)로 이미지 생성, 영상 생성, 나레이션, 시나리오 작성까지 전부 해결
"한 줄 → 완성 영상" 명령어를 실행했을 때 이미지 4장, 영상 4개, 나레이션 4개, 최종 편집까지 자동으로 쭉 돌아간 순간이 인상적
세계관만 바꾸면 과학, 뷰티, 역사 등 어떤 채널이든 적용 가능한 템플릿 구조
핵심 교훈: 처음부터 완전 자동을 노리지 말고, 반자동부터 시작해서 점진적으로 자동화하라

🎯 이런 분들께 도움돼요

AI로 숏폼 영상을 만들어보고 싶은데, 도구가 너무 많아서 어떻게 조합하는지 모르겠는 분
이미지 생성, 영상 생성, TTS를 각각 따로 쓰고 있는데 하나로 합치고 싶은 분
"AI로 이런 것도 돼?" 하는 자동화 사례가 궁금한 크리에이터

😫 문제 상황 (Before)

AI 영상 제작 강의와 워크숍을 진행하면서 항상 아쉬운 게 하나 있었습니다. "한 줄 치면 영상이 나옵니다"라고 말은 하는데, 실제로 시연을 해보이지는 못했거든요.

실제로 숏폼 영상 하나를 만들려면 이런 과정이 필요했습니다:

시나리오를 직접 쓰고
이미지 생성 도구에서 씬별 이미지를 하나씩 만들고
영상 생성 도구에서 이미지를 영상으로 변환하고
TTS 도구에서 나레이션을 녹음하고
영상 편집 도구에서 전부 합치고 자막을 넣고

각 단계마다 다른 도구, 다른 API 키, 다른 설정이 필요했습니다. 이미지는 fal.ai, 영상은 또 다른 API, 나레이션은 Typecast... API 키만 3개를 관리해야 했어요. 영상 하나 만드는 데 반나절은 기본이었습니다.

강의에서 "이렇게 하면 됩니다"라고 설명만 하는 것과, 눈앞에서 실시간으로 영상이 만들어지는 걸 보여주는 건 완전히 다른 임팩트잖아요. 이번에 제대로 만들어보기로 했습니다.

🛠️ 사용한 도구

AI 코딩 도구: Claude Code (Opus 4.6)
AI 모델: Google Gemini API (Imagen 4, Veo 2, TTS, Flash)
영상 편집: Remotion (React 기반 프로그래매틱 비디오)
작업 시간: 약 4시간 (단일 세션)

🔧 작업 과정

세계관부터 만들자 — "오!사이언스" 채널 탄생

처음부터 영상을 만드는 게 아니라, 먼저 채널의 세계관을 잡는 것부터 시작했습니다. 어떤 분위기의 채널인지, 등장인물은 누구인지, 비주얼 스타일은 어떤지를 먼저 정해야 일관된 영상이 나오니까요.

어떤 채널을 만들고 싶으세요? → "지식/정보 숏폼"
어떤 분야? → "과학/상식 풀이"
톤은? → "재미+정보 (예능형)"

Claude Code가 질문 몇 개를 던지고, 제 답변을 바탕으로 세계관을 자동 생성했습니다. "오!사이언스 (Oh! Science)" 라는 채널이 탄생했어요. 28세 천재 과학자 오박사와 AI 조수 로봇 큐가 등장하는 Pixar풍 3D 애니메이션 스타일의 과학 예능 채널입니다. 캐릭터 설정, 배경 설정, 브랜드 가이드까지 YAML 파일로 자동 생성됐습니다.

편집 규칙도 마찬가지. "30초 숏폼, 세로(9:16), 예능 톤"이라고 하니까 자막 스타일, 씬 전환 효과, 타이밍 규칙까지 자동으로 만들어줬어요.

EP01: 반자동으로 첫 영상 만들기

첫 번째 에피소드 주제는 "하품은 왜 전염될까?"로 정했습니다.

하품은 왜 전염될까? 로 9:16 비율로

이 한 줄로 시나리오가 자동 생성됐습니다. 3개 씬으로 구성된 "당신이 지금 하품하는 소름 돋는 이유"라는 제목의 시나리오가 나왔고, 각 씬별 이미지/영상 프롬프트까지 영어로 자동 생성됐어요.

다만 이때는 이미지와 영상 생성 API 키가 설정되지 않은 상태라 에셋은 제가 직접 만들었습니다. Claude Code가 캐릭터별 이미지 프롬프트를 제공해주면, 저는 그걸 복사해서 이미지 생성 도구에 넣고, 만들어진 이미지를 정해진 폴더에 넣는 방식이었어요.

이미지 3장, 영상 3개를 직접 만들어서 넣은 뒤 최종 편집을 요청했습니다.

내가 영상을 3개 다 만들었어, 이걸 remotion으로 최종편집 하고싶어

Remotion이라는 React 기반 영상 편집 도구로 3개 씬을 합치고, 자막을 넣고, 1080x1920으로 업스케일해서 최종 영상이 나왔습니다. 15.9MB짜리 30초 숏폼 완성.

그런데 자막이 안 보이는 위치에 있어서 수정을 요청했어요.

자막의 위치가 너무 안 보이는 곳에 있어서 이동시키고 글씨도 키워주고 대사도 더 재미있게 넣어줘

Claude Code가 자막 위치를 중앙 하단으로 옮기고, 글씨 크기를 키우고, 강조 색상을 바꾸고, 대사를 예능 톤으로 재작성해줬습니다. 한글 경로 때문에 렌더링 에러가 나는 문제도 있었는데, 이건 좀 찾기 어려웠어요. Remotion이 한글이 포함된 파일 경로를 처리하지 못해서 404 에러가 나는 거였거든요. Claude가 경로를 상대경로로 변환해서 해결했습니다.

전환점: "원래 전부 자동이었어?"

EP01을 반자동으로 만들고 나니 궁금해졌습니다.

내가 중간에 이미지와 영상을 별도로 만들고 그걸 리모션으로 최종출력했는데 원래는 어떻게 하려는 계획이었어? 너가 따로 다 자동으로 만들수 있어?

Claude Code가 원래 파이프라인 설계를 보여줬습니다. 원래는 주제 한 줄만 입력하면 시나리오 → 이미지 프롬프트 → 이미지 생성 → 영상 생성 → 나레이션 → 최종 편집까지 전부 자동이었던 거예요. 다만 여러 API(fal.ai, Typecast 등)가 필요했던 구조였습니다.

제미나이 api로 대체되나?

Gemini API 하나로 전부 대체할 수 있다는 답변을 듣고 바로 결정했습니다.

그럼 완전 자동으로 해줘, 한번 만들어 보고 싶어

네 아예 스킬을 수정해줘

Gemini API 단일화 — 4개 스킬 전면 교체

여기서부터가 이번 작업의 핵심입니다. Claude Code가 4개 스킬을 순차적으로 Gemini API로 전면 교체했습니다:

이미지 생성: fal.ai → Gemini Imagen 4
영상 생성: Grok Video → Gemini Veo 2
나레이션: Typecast → Gemini TTS
음성 타이밍: fal.ai Whisper → 로컬 faster-whisper

설정 파일, 에이전트 코드, 캐릭터 음성 설정까지 전부 한 번에 수정했습니다. API 키 3개 관리하던 걸 GEMINI_API_KEY 하나로 줄인 거예요.

EP02: 드디어 완전 자동 — "한 줄 → 완성 영상"

모든 준비가 끝나고, 드디어 완전 자동 테스트.

주제는 "우리는 왜 소름이 돋을까?" — 이 한 줄로 전체 파이프라인을 돌렸습니다.

물론 한 번에 된 건 아닙니다. 에러가 연달아 터졌어요:

이미지 생성에서 404 에러 — 알고 보니 이전에 쓰던 Imagen 3 모델이 폐지됐습니다. Claude가 API에서 사용 가능한 모델 목록을 조회해서 Imagen 4를 찾아 자동으로 교체했어요.
영상 생성에서 파라미터 형식 에러 — Veo 2가 요구하는 이미지 전달 형식이 달랐습니다. 이것도 Claude가 수정.
나레이션에서 "shock" 감정 에러 — 시나리오에 "충격" 감정이 들어갔는데 등록되지 않은 감정이라 거부당했습니다. 감정 제한을 풀어서 해결.

에러를 하나씩 잡고 다시 실행하니, 드디어 쭉 돌아갔습니다.

이미지 4장이 생성되고, 그 이미지로 영상 4개가 만들어지고, 나레이션 4개가 녹음되고, 단어별 타이밍이 추출되고, 전부 합쳐져서 최종 영상이 나왔습니다. 34초짜리 "소름 돋는 출생의 비밀?! 입모근의 진실" — 완성.

이 순간이 진짜 "오!" 했던 순간이에요. 주제 한 줄 넣었을 뿐인데 이미지부터 최종 편집까지 전부 자동으로 돌아가는 걸 눈앞에서 본 거니까요.

✅ 결과 (After)

Before vs After

항목

Before

After

영상 제작 시간

반나절 (이미지/영상/나레이션 각각 수동)

5분 (한 줄 명령어)

관리할 API 키

3개 (fal.ai, Typecast, Gemini)

1개 (GEMINI_API_KEY)

강의 시연

"이렇게 하면 됩니다" (말로만)

실시간 시연 가능

채널 확장

채널마다 처음부터 다시 설정

세계관만 바꾸면 즉시 적용

결과물

EP01 "당신이 지금 하품하는 소름 돋는 이유" — 반자동 (30초, 15.9MB)
EP02 "소름 돋는 출생의 비밀?! 입모근의 진실" — 완전 자동 (34초, 27MB)
자동화 파이프라인: 주제 한 줄 → 시나리오 → 이미지 → 영상 → 나레이션 → 자막 → 최종 편집

💬 이 과정에서 배운 AI 활용 팁

효과적이었던 것

반자동부터 시작해서 점진적으로 자동화하라 — EP01에서 시나리오/프롬프트만 자동화하고 나머지는 수동으로 했더니, 전체 파이프라인의 흐름을 이해할 수 있었습니다. 그 이해가 있어야 EP02에서 완전 자동화할 때 뭐가 잘못되는지 판단할 수 있었어요.
API를 하나로 통일하면 관리가 압도적으로 편해진다 — Gemini API 하나로 이미지, 영상, 음성, 텍스트 생성이 전부 됩니다. API 키 하나, 과금 하나, 문서 하나.
에러가 나면 당황하지 말고 AI한테 맡겨라 — 모델이 폐지되어서 404가 떴을 때, Claude가 알아서 대체 모델을 찾아서 교체했습니다. 사람이 직접 문서를 뒤지는 것보다 빨랐어요.

이렇게 하면 안 돼요

처음부터 완전 자동을 노리지 마세요 — 중간 과정을 모르면 에러가 났을 때 어디서 잘못된 건지 감을 못 잡습니다. 반자동으로 한 번 돌려보고 흐름을 파악한 뒤에 자동화하세요.
한글 경로 조심 — AI 도구들이 한글 파일 경로를 잘 처리하지 못하는 경우가 많습니다. 프로젝트 폴더명은 영어로 하는 게 안전해요.

🌍 다른 업무에 적용한다면?

이 파이프라인의 구조는 숏폼 영상에만 한정되지 않습니다:

교육 콘텐츠: 강의 대본 → 슬라이드 이미지 → 나레이션 → 영상 자동 생성
마케팅 영상: 제품 설명 한 줄 → 프로모션 숏폼 자동 생성
뉴스/정보 채널: 기사 요약 → 인포그래픽 영상 자동 생성

핵심은 "텍스트 → 시각 에셋 → 영상 → 편집"이라는 파이프라인 구조입니다. 세계관(캐릭터, 스타일, 톤)만 바꾸면 어떤 도메인이든 적용할 수 있어요.

🚀 앞으로의 계획

지금은 과학 예능 채널 "오!사이언스"용으로 만들었지만, 이걸 템플릿화할 계획입니다. 세계관 설정 파일만 교체하면 뷰티, 역사, 요리 등 어떤 채널 콘셉트든 바로 적용할 수 있는 구조거든요.

"채널 콘셉트 입력 → 세계관 자동 생성 → 주제만 넣으면 영상이 나오는" 원클릭 시스템이 최종 목표입니다.

📋 재사용 가능한 프롬프트

프롬프트 1: 세계관 생성

다음 채널 콘셉트로 세계관을 만들어줘:
분야: [과학/뷰티/역사/요리 등]
톤: [예능형/정보형/감성형]
타겟: [10대/20대/30대+] 캐릭터 2명, 배경 설정, 비주얼 스타일을 YAML로 생성해줘.

프롬프트 2: 에피소드 완전 자동 생성

"[주제]"로 숏폼 영상 만들어줘. 시나리오 → 이미지 → 영상 → 나레이션 → 편집까지 전부 자동으로.

프롬프트 3: 자동화 파이프라인 시작하기

이 프로젝트의 영상 생성 파이프라인을 분석해줘. 현재 어떤 API를 사용하고 있고, Gemini API 하나로 통합할 수 있는지 확인해줘. 가능하면 스킬을 전부 Gemini로 교체해줘.

20개의 주제를 확인해보세요! AI 스터디 슈퍼 얼리버드 시작🕊️