[Claude Code] "숏폼 만들자" 한마디면 기획부터 유튜브 업로드까지

[Claude Code] "숏폼 만들자" 한마디면 기획부터 유튜브 업로드까지 — AI 도구 조합기

📝 한줄 요약

AI 이미지, 영상, 음성 생성 도구들을 Claude Code로 연결해서, "숏폼 만들자" 한마디로 기획→대본→이미지→음성→영상→합성→YouTube 업로드까지 자동화하는 파이프라인을 3일 만에 만들었습니다.

바쁘시면 이것만 읽어도 돼요:

AI 도구들(이미지/영상/음성 생성)은 각각 써봤는데, 하나로 연결하는 게 과제였음
API 문서 URL만 던져주면 Claude Code가 알아서 연동해줌 — 코드를 이해할 필요 없음
한 번에 다 시키지 말고 스킬 하나씩 만들어서 확인하고 조합하는 게 핵심
Gemini API 장애 시 다른 모델로 자동 전환 시도 — 문제 해결도 같이 해줌
결과: "숏폼 만들자" 한마디로 전체 과정 자동화, 다른 자동화에도 적용 가능한 방법론 획득

🎯 이런 분들께 도움돼요

AI 도구에 관심 있는데, 코딩을 못 해서 활용에 한계를 느끼는 분
여러 AI 도구를 각각 써봤지만, 연결해서 자동화하고 싶은 분
Claude Code 같은 AI 코딩 도구로 실제 뭘 할 수 있는지 궁금한 분

😫 문제 상황 (Before)

AI 이미지 생성, 영상 생성, 음성 생성 도구들을 각각 써본 적은 있었습니다. Gemini로 이미지 만들고, Typecast로 음성 만들고, 이런 건 됐어요.

문제는 이걸 하나로 연결하는 것이었습니다.

숏폼 하나를 만들려면 이런 과정을 거쳐야 했습니다:

주제 정하고 대본 쓰기
장면별 이미지 생성하기
대사별 음성 만들기
인트로 영상 만들기
이걸 전부 편집 프로그램에서 합치기
YouTube에 업로드하기

각 단계마다 다른 도구를 열고, 파일을 옮기고, 설정을 맞추고... 한 편 만드는 데 엄두가 안 났습니다. 그래서 "이걸 AI한테 시키면 안 되나?"라는 생각에서 시작했습니다.

🛠️ 사용한 도구

AI 코딩 도구: Claude Code (Claude Opus 4.6 모델)
이미지 생성: Gemini API (nano-banana-pro-preview, gemini-2.5-flash-image)
영상 생성: Gemini Veo 3.1 API
음성 생성: Typecast TTS API
영상 합성: FFmpeg
업로드: YouTube Data API v3

🔧 작업 과정

Day 1: 도구 하나씩 연결하기 — "API 문서만 주면 알아서 해줌"

처음부터 자동화 파이프라인을 만들진 않았습니다. 먼저 AI에게 도구를 하나씩 연결해달라고 했어요.

제미나이 나노바나나 프로모델로 이미지 생성하는 클로드코드 스킬 구현해줘.
특히 나는 레퍼런스 이미지도 많이 활용할거야.

Gemini 이미지 생성 API 문서 URL을 함께 던져줬더니, Claude Code가 API 문서를 분석하고 이미지 생성 기능을 알아서 만들어줬습니다. 텍스트로 이미지를 만드는 것, 기존 이미지를 참고해서 새 이미지를 만드는 것 모두요.

바로 테스트를 해봤습니다.

고양이 그림 그려줘

꽃밭에서 뛰어노는 고양이 수채화가 나왔습니다. 되는 걸 확인하고, 바로 다음 도구로 넘어갔어요.

타입캐스트를 음성을 만드는 api로 연결하고 싶은데 어떻게 해야해?
이 음성만드는 걸 클로드 코드 스킬로 만들어줘

Typecast TTS API도 같은 방식으로 연결했습니다. 텍스트를 주면 음성 파일을 만들어주는 기능이요.

영상 생성도 마찬가지였습니다. Gemini Veo API 문서를 주고 스킬을 만들어달라고 했더니, 텍스트나 이미지로 영상을 생성하는 기능까지 완성됐습니다.

여기서 인상적이었던 건, API 문서 URL만 던져줬는데 알아서 스킬을 만들어준 것입니다. 코드가 뭔지 몰라도 됐어요. "이 API로 이미지 만들어주는 기능 만들어줘"라고 하면 끝이었습니다.

Day 2: 파이프라인 설계 — "숏폼 만들자고 하면 알아서 되게 해줘"

도구가 3개 준비되니까, 이제 이걸 연결하고 싶어졌습니다.

숏폼을 만드는 걸 자동화 파이프라인으로 만들려고 해. 어떤 에이전트가 필요할까?

자기개발 소재 + 유명인이 답변하는 형식을 가지는 숏폼 클립을 만들거야.
캐릭터는 자기개발과 관련된 고민하는 찌질남이 있고,
거기에 답변을 해주는 유명인이 1명 등장해.
내가 숏폼만들자고 이야기 하면 해볼만한 주제와 등장인물을 예시로 추천해주고
내가 선택하면 인트로 영상 + 이미지 + 스크립트 자막 + tts 를 만들고
합쳐서 업로드 하는 것 까지 하는 걸로

콘셉트를 설명하니까 Claude Code가 필요한 에이전트 구조를 제안하고, 설계 문서와 구현 계획까지 작성해줬습니다. 기획 에이전트, 스크립트 에이전트, 이미지 에이전트, 음성 에이전트, 영상 에이전트, 합성 에이전트, 업로드 에이전트 — 총 7개 에이전트가 순서대로 동작하는 구조였습니다.

이 날 데이터 모델, 기획 에이전트, 스크립트 에이전트까지 구현을 시작했습니다.

Day 3: 완성 + 첫 숏폼 제작 — "진짜 한마디로 됐다"

아까 하던 작업 이어서 해줘

전날 세션을 닫고 새로 열었는데, 구현 계획이 파일로 저장되어 있어서 바로 이어서 작업할 수 있었습니다. 나머지 에이전트들(TTS, 이미지, 인트로, 합성, 업로드)을 전부 구현하고, 테스트 33개가 모두 통과했습니다.

그리고 드디어 실전 테스트.

그래 쇼츠 만들자

이 한마디를 치니까 파이프라인이 돌아가기 시작했습니다:

기획: 5개 주제+유명인 후보가 나옴 → "돈이 안 모일 때 + 워렌 버핏" 선택
대본: "나 자산 130조인데 아직도 맥도날드 쿠폰 써" 같은 대사가 포함된 56초 분량 스크립트 자동 생성
음성: 대사 6개의 TTS 음성 파일 자동 생성 (찌질남 목소리, 버핏 목소리 각각)
이미지: 장면별 캐리커처 이미지 5장 자동 생성
인트로 영상: Veo 3.1로 인트로 영상 2개 후보 생성 → 하나 선택
합성: FFmpeg로 전부 합쳐서 최종 영상 완성
업로드: YouTube Shorts에 자동 업로드 완료

중간에 Gemini API가 장애를 일으켜서 이미지 생성이 안 됐는데, Claude Code가 다른 모델(gemini-2.5-flash-image)로 전환을 시도해서 해결됐습니다. API 키가 잘못된 건 아닌지 확인도 알아서 해줬어요. 문제 해결까지 같이 해주는 느낌이었습니다.

YouTube 업로드에서 Google Cloud Console의 OAuth 설정이 필요했는데, 이게 좀 복잡했습니다. 하지만 "사이트가 너무 복잡해 자세히 설명해줘"라고 하니까 단계별 가이드를 만들어줘서 따라하니 됐습니다.

✅ 결과 (After)

Before vs After

항목

Before

After

숏폼 제작

각 도구 따로 사용, 시작 엄두 못 냄

"숏폼 만들자" 한마디로 전체 자동화

AI 도구 활용

개별적으로만 사용

여러 도구를 하나의 파이프라인으로 연결

코딩 지식

필요 없었고 지금도 없음

그래도 자동화 시스템을 가지게 됨

결과물

첫 번째 숏폼: https://youtube.com/shorts/8coe1_SmhWQ
"워렌 버핏이 돈 못 모으는 찌질남에게 한마디" (56초)
기획부터 업로드까지 AI와 대화하면서 완성

💬 이 과정에서 배운 AI 활용 팁

효과적이었던 것

스킬 하나씩 만들어서 확인하고 조합하기 — 처음부터 "전부 자동화해줘"가 아니라, 이미지 생성 → 음성 생성 → 영상 생성을 하나씩 확인한 뒤 연결했더니 문제가 생겨도 어디서 난 건지 바로 알 수 있었습니다.
막히면 그냥 물어보기 — "혹시 내 API 키가 잘못 입력된 거 아닐까?", "사이트가 너무 복잡해 자세히 설명해줘" 같은 질문을 하면 AI가 원인을 파악하고 해결 방법을 알려줬습니다. 혼자 끙끙대지 않아도 됩니다.
API 문서 URL 던져주기 — 코드를 몰라도, API 문서 링크만 주면 AI가 분석해서 기능을 만들어줍니다.

이렇게 하면 안 돼요

한 번에 너무 큰 걸 시키기 — "숏폼 자동화 전부 만들어줘"보다 "이미지 만드는 스킬부터 만들어줘"가 훨씬 잘 됩니다.
에러를 무시하기 — API 장애, 설정 오류 등이 생겼을 때 AI에게 바로 물어보면 빠르게 해결됩니다.

🌍 다른 업무에 적용한다면?

뉴스레터 자동화: 주제 선정 → 본문 작성 → 이미지 생성 → 발송까지
SNS 콘텐츠 배치 제작: 한 주제로 카드뉴스 이미지 + 캡션 + 해시태그 자동 생성
교육 콘텐츠: 설명 대본 → TTS 음성 → 슬라이드 이미지 → 강의 영상 합성

핵심은 "각 AI 도구를 스킬로 만들고, 스킬들을 파이프라인으로 연결한다"는 패턴입니다. 이 패턴만 알면 어떤 자동화든 같은 방식으로 만들 수 있습니다.

🚀 앞으로의 계획

어색한 대화체 수정, 핵심 메시지 전달력 강화 (돈을 아껴써야 한다 정도로 그치면 안된다)
배경음악(BGM) 추가
자막 추가
장면 전환 효과 추가
캐릭터 일관성 유지
오디오 싱크 수정
인트로 훅 영상의 퀄리티 올리기

📋 재사용 가능한 프롬프트

프롬프트 1: AI 도구를 스킬로 만들기

[API 문서 URL]을 참고해서 [기능 설명]하는 스킬을 만들어줘. 특히 [중요한 요구사항]을 지원해줘.

프롬프트 2: 자동화 파이프라인 설계

[최종 결과물]을 만드는 걸 자동화 파이프라인으로 만들려고 해. 어떤 에이전트가 필요할까? [콘셉트 상세 설명] 내가 [트리거 명령어]라고 하면 [단계1] → [단계2] → ... → [최종 단계]까지 자동으로 되게 해줘.

프롬프트 3: 복잡한 설정 가이드 요청

[설정할 것]을 해야 하는데, 사이트가 너무 복잡해. 자세히 설명해줘.

20개의 주제를 확인해보세요! AI 스터디 슈퍼 얼리버드 시작🕊️

[Claude Code] "숏폼 만들자" 한마디면 기획부터 유튜브 업로드까지 — AI 도구 조합기