TTS 3종 비교하고, 캐릭터 정하고, 쇼츠 리서치까지

📝 한줄 요약

Claude Code 바이브코딩으로 AI 숏폼 영상 파이프라인을 하루 만에 터미널 애니메이션 → 이미지 기반 + 고양이 캐릭터로 전환하고, TTS 3종을 비교 테스트하며, 30개 쇼츠 채널 리서치까지 한 과정.

바쁘시면 이것만 읽어도 돼요: - Claude Code로 Remotion(React 기반 영상 프레임워크) 숏폼 파이프라인 구축 - 터미널 코드 애니메이션으로 만들었더니 밋밋 → AI 이미지 기반으로 방향 전환 - 쇼츠 바이럴 공식 리서치: 30+ 채널 분석해서 캐릭터/자막/타이밍 공식 도출 - TTS 3종(ElevenLabs, edge-tts, Supertone) 실제 비교 후 최종 선택 - 처음부터 완벽하게 하려 하지 말고, 빨리 만들고 → 보고 → 바꾸는 게 핵심

🎯 이런 분들께 도움돼요

GPTers 스터디에서 Claude Code로 숏폼 만들어보고 싶은 분
바이브코딩으로 영상 파이프라인까지 만들 수 있는지 궁금한 분
AI 이미지 생성 + TTS + 영상 합성을 한번에 해보고 싶은 분

😫 문제 상황 (Before)

이전 세션(Day 1~2)에서 이미 기본 파이프라인은 만들어 놓은 상태였어요. 소재 추출 → 시나리오 → 이미지 → TTS → Remotion 렌더링까지 흐름은 돌아갔고, 10초짜리 영상 2편도 뽑았습니다.

근데 문제가 있었어요. 전부 다 문제였습니다.

터미널 코드 애니메이션이 비주얼로서 너무 밋밋했고, 나레이션은 딱딱했고, 자막은 싱크가 안 맞았고, BGM은 분위기가 안 맞았어요. 쇼츠로 올리기엔 수준이 한참 부족했습니다.

"일단 돌아가는 파이프라인"에서 "실제로 올릴 수 있는 영상"까지의 간극이 생각보다 컸어요.

🛠️ 사용한 도구

메인 개발: Claude Code (Opus 4.6)
이미지 생성: Gemini 나노바나나 Pro
TTS (비교): ElevenLabs, edge-tts, Supertone Play API
영상 렌더링: Remotion (React 기반)
리서치: Claude + Gemini 병렬 리서치 에이전트

🔧 작업 과정

터미널 코드 애니메이션 — 열심히 만들었는데 밋밋하다

처음에는 "개발자 감성 숏폼"이니까 터미널 화면이 맞을 거라고 생각했어요. "AI한테 일을 시켰더니 Permission Denied" 같은 내용을 터미널 UI로 표현하면 멋있을 줄 알았습니다.

터미널 코드 애니메이션으로 4개 씬 구현해줘. 스피너, Permission Denied, 타이핑 효과 포함

Claude Code가 TerminalWindow, TypewriterText 같은 컴포넌트를 만들어주고, 4개 씬을 코드로 구현했어요. 빌드도 잘 되고, 렌더링도 성공했습니다.

근데 영상을 열어보니...

검은 배경에 초록색 텍스트. 개발자한테는 익숙하지만, 쇼츠로서 시각적 자극이 전혀 없었어요. "이건 아닌데..."라는 생각이 들었습니다.

쇼츠 리서치 — 30개 채널 분석에서 공식을 찾다

방향을 바꾸기 전에 "잘 되는 쇼츠"가 뭔지부터 알아야 했어요.

한국 YouTube Shorts 성공 채널 분석해줘. 김햄찌, 숏박스, 피식대학, 코딩애플 등 캐릭터/자막/BGM/나레이션 패턴

Claude Code의 Research 스킬이 2개 에이전트를 병렬로 돌려서 30개 넘는 채널을 분석했습니다. 사람이 했으면 며칠 걸렸을 걸 30분에 끝냈어요.

핵심 발견: - 첫 1.5초가 승부 — 3초가 아니라 1.5초 안에 스크롤을 멈춰야 합니다 - 15-20초가 최적 길이 (리텐션 80%+) - 동물 마스코트 캐릭터가 AI 이질감 제거에 가장 효과적 (김햄찌가 증명) - 테크 x 캐릭터 쇼츠 = 한국에서 아직 블루오션

이 리서치 결과가 이후 모든 결정의 기준이 됐습니다.

캐릭터 결정 — 3가지 스타일 중 고양이를 고르다

리서치 결과를 바탕으로 캐릭터 스타일을 테스트했어요.

3가지 스타일로 테스트 이미지 뽑아줘. 세미리얼 사람, 미니멀 벡터, 동물 마스코트

나노바나나로 3장을 뽑았습니다:

(세미리얼 사람)
미니멀 벡터
고양이 마스코트

고양이가 압도적이었어요. 안경 쓴 후디 고양이가 에러 화면에 둘러싸여 당황하는 그림 — 귀엽고, 공감되고, IP 확장성도 있습니다.

여기서 결정한 후, 레퍼런스 체이닝으로 4장을 연속 생성했어요. 같은 고양이 캐릭터가 일관되게 유지됐습니다.

TTS 3종 비교 — ElevenLabs, edge-tts, Supertone

나레이션도 큰 고민이었어요. 3가지를 실제로 비교했습니다:

1. edge-tts (무료)

edge-tts로 나레이션 생성해줘. 한국어 HyunsuMultilingual 음성으로

무료라 좋은데 딱딱해요. 감정 표현이 평평해서 쇼츠 나레이션으로는 부족했습니다.

2. ElevenLabs (유료)

API 키를 설정했는데, 무료 플랜에서는 한국어 라이브러리 음성이 API로 안 됩니다. 웹에서 Dohyeon(whispering) 음성을 테스트했는데, 느리고 위스퍼링이라 쇼츠 템포에 안 맞았어요.

3. Supertone (유료, 한국 회사)

Supertone API로 한국어 음성 목록 조회해줘

257개 음성 중 한국어 100개. Bin이라는 남성 음성이 "담백하고 과하지 않은 나레이션"에 딱이었어요. API로 4씬 TTS를 바로 생성했습니다.

TTS

자연스러움

감정 표현

한국어

가격

edge-tts

★★

★

★★★

무료

ElevenLabs

★★★

★★

$5/월

Supertone

★★★★

★★★

★★★★★

$2.99/월

Remotion 모션 효과 — 정적 이미지를 살아있게

이미지가 좋아도 정지 화면이면 슬라이드쇼예요. 코드로 동영상 느낌을 만들어야 했습니다.

Remotion에 비주얼 효과 추가해줘. 호흡, 패닝, 파티클, 임팩트 텍스트

Claude Code가 만든 효과들:

- LivingImage: 이미지가 살짝 숨 쉬듯 확대/축소 + 좌우 미세 패닝 (핸드헬드 느낌)

- TransitionSeries: 씬 전환 시 fade/slide 효과

- ImpactText: "주니어가 / 사라지고 있다" 같은 키워드가 바운스하며 등장 + 하이라이트

- FloatingParticles: 따뜻한 씬에서 먼지/빛 입자가 떠다님

- ScreenFrame: 상단 브랜드바 + 하단 텍스트 + 프로그레스바

이 효과들이 합쳐지니 정적 이미지가 영상처럼 느껴졌어요. 전부 React 코드라 무료입니다.

두 번째 소재 "주니어 파이프라인" — 새 소재로 빠르게 완성

파이프라인이 안정되니 두 번째 영상을 빠르게 만들 수 있었어요.

소재: "주니어 개발자 파이프라인이 망가졌다"

주니어 파이프라인 소재로 4씬 이미지 생성하고 렌더링해줘

빈 사무실
채용공고
끊어진 사다리
🎬 [영상] 최종 렌더링 결과

삽질 포인트 — 방향 전환과 결정의 어려움

터미널 코드 애니메이션을 열심히 만들었는데 "이건 아닌데"라는 걸 인정하기가 쉽지 않았어요. 코드 애니메이션 컴포넌트만 4개, 공통 유틸 2개를 만들었는데 다 버리고 이미지 기반으로 갈아타야 했습니다.

또 캐릭터, 목소리 같은 건 AI가 옵션은 줬지만 최종 판단은 내가 해야 했어요. "이 목소리가 맞나?", "고양이가 맞나?" — 정답이 없는 결정이라 어려웠습니다.

결국 "분석 마비에 빠지지 말고, 만들어보고 판단하자"가 가장 효과적이었어요.

✅ 결과 (After)

Before vs After

항목

Before

After

비주얼

터미널 텍스트 애니메이션

고양이 마스코트 + AI 이미지 + 모션 효과

나레이션

edge-tts (딱딱)

Supertone Bin (자연스러운 대화체)

자막

균등 시간 분할 (싱크 안 맞음)

SRT 기반 문장별 싱크

길이

35-41초 (과다)

25초 (최적)

씬 전환

뚝 끊김

fade/slide + 0.9초 호흡

효과

없음

호흡+패닝+비네트+파티클+임팩트텍스트

💬 이 과정에서 배운 AI 활용 팁

효과적이었던 것

빨리 만들고 → 보고 → 바꾸기: 터미널 애니메이션을 열심히 만들었지만 밋밋하다는 걸 보고 바로 방향을 틀었어요. 처음부터 완벽하게 하려 했으면 시간만 더 쓰고 결과는 같았을 겁니다
AI한테 리서치 시키기: 30개 채널 분석을 병렬 에이전트 2개로 30분에 끝냈어요. 사람이 했으면 며칠 걸렸을 겁니다
옵션 뽑아서 비교하기: 캐릭터 3종, TTS 8종 음성을 실제로 만들어보고 비교했어요. 말로만 고민하는 것보다 훨씬 빠릅니다

이렇게 하면 안 돼요

첫 방향에 집착하기: 터미널이 맞을 거라고 확신했지만 틀렸어요. 빨리 인정하고 바꾸는 게 낫습니다
분석 마비: 캐릭터를 뭘로 할지 계속 고민하면 끝이 없어요. "일단 3개 뽑아보고 고르자"가 정답입니다

🌍 다른 업무에 적용한다면?

마케팅 숏폼: 제품 소개를 캐릭터 기반으로 만들기 (나노바나나 이미지 + TTS + Remotion)
사내 교육: 온보딩 영상을 AI로 자동 생성 (텍스트 → 영상)
뉴스레터 영상화: 텍스트 콘텐츠를 숏폼으로 변환하는 파이프라인

🚀 앞으로의 계획

파이프라인 완전 자동화: 소재만 넣으면 시놉시스 → 이미지 → TTS → 렌더링까지 원커맨드
숏폼 + 롱폼 병행: 같은 소재로 쇼츠(20초) + 롱폼(3-5분) 동시 출력
캐릭터 IP 확장: 고양이 캐릭터를 시리즈화하고 굿즈까지

📋 재사용 가능한 프롬프트

프롬프트 1: 쇼츠 리서치

한국 YouTube Shorts 성공 채널 종합 분석해줘. [분석 대상 채널명]. 캐릭터 타입, 자막 스타일, BGM 패턴, 나레이션 톤, 씬 전환 빈도를 분석해서 공통 성공 패턴 도출해줘.

프롬프트 2: AI 이미지로 캐릭터 테스트

[캐릭터 설명]으로 테스트 이미지 뽑아줘. 3가지 스타일(세미리얼/미니멀/마스코트)로 같은 장면을 만들어서 비교하고 싶어.

프롬프트 3: TTS 비교

[TTS 서비스] API로 한국어 음성 목록 조회하고, [콘셉트]에 맞는 음성 5개 추천해줘. 테스트 문장으로 비교 생성까지.

20개의 주제를 확인해보세요! AI 스터디 슈퍼 얼리버드 시작🕊️

TTS 3종 비교하고, 캐릭터 정하고, 쇼츠 리서치까지 — AI랑 영상 만든 하루