코알못 AI 코딩 어시스턴트와 손잡고 Remotion 자동 영상 합성 버그를 통쾌하게 해결하고 숏폼을 완성하기까지

소개

시도하고자 했던 것과 그 이유를 알려주세요.

# [Antigravity × Veo 3.1] 자막 침투부터 씬 잘림 현상까지! 코알못 1인 창업가가 AI 코딩 어시스턴트와 손잡고 Remotion 자동 영상 합성 버그를 통쾌하게 해결하고 숏폼을 완성하기까지

## 📝 한줄 요약
영상 편집과 프로그래밍 코드를 전혀 모르는 1인 창업가가 AI 대시보드와 코딩 어시스턴트(Antigravity)와의 긴밀한 협업을 통해, 두 마스코트 바리스타의 카페 홍보 숏폼 브랜드 필름을 48초 분량의 초고화질 실사 비디오로 완벽히 완성해 냈습니다. 렌더링 과정에서 발생한 자막 꼬임과 재생 시간 잘림 오류를 AI와 함께 파일 메타데이터 분석 및 코드 수정을 거치며 통쾌하게 해결하고, 향후 홍보 콘텐츠를 10분 만에 초고품질로 무한 양산할 수 있는 강력한 자동화 파이프라인을 독자적으로 소유하게 되었습니다.

**바쁘시면 이것만 읽어도 돼요:**
- **사용한 도구와 목표**: AI 어시스턴트 Antigravity 및 Veo 3.1 비디오 생성 모델을 활용하여 가상 카페 브랜드 '카페메이트'의 48초 고품질 실사 숏폼 브랜드 필름을 대시보드 및 Remotion CLI 기반으로 완전 자동 병합 구축 (수동 제작 시 2~3일 걸리던 작업을 단 수십 분 만에 완료).
- **과정 중 깨달은 점**: 숏폼 영상 제작 시 기획안의 씬별 텍스트 프롬프트뿐만 아니라, 비디오 생성 AI에 완벽한 입 모양 맞춤(립싱크) 명령어(`perfect lip sync`)를 심어주는 디테일의 중요성과, 물리적인 영상 길이와 메타데이터 매칭이 오차 없이 이루어져야 완성도 높은 결과물을 얻을 수 있다는 것을 깨달았습니다.
- **핵심 해결 방법**: 타 프로젝트의 자막이 씬 ID 충돌로 겹쳐 들어오는 현상을 리모션 코드 수정(프로젝트 ID별 조건부 가드 삽입)으로 해결하고, 8초짜리 원본 영상이 5초로 잘리는 현상을 macOS 파일 속성 진단기(`mdls`)를 통해 밝혀내어 설정 파일의 시간을 8초로 일괄 확장하는 기민한 시스템 마이그레이션으로 무결한 전체 본을 렌더링했습니다.
- **특별히 인상적이었던 순간**: 따뜻한 수채화 감성의 지브리풍에서 더 아늑하고 생생한 실사풍(Photorealistic)으로 콘셉트를 전환하자마자, AI가 에피소드의 기획 내용과 6개 씬의 이미지/비디오 프롬프트를 흐트러짐 없이 실사 묘사로 자동 재설계하고 캐릭터 의상(오트밀 니트, 그레이 티)까지 완벽하게 통일해 주었던 순간에 전율을 느꼈습니다.
- **확장성/재사용성**: 이 대시보드 및 Remotion 기반 숏폼 하네스는 씬 구조와 이미지/비디오 프롬프트, 대사 텍스트 파일만 변경해 주면 단 10분 만에 또 다른 초고품질 숏폼 콘텐츠를 무한히 빌드해 낼 수 있어, 향후 다양한 브랜드 마케팅 및 F&B 숏폼 전문 제작 대행사 비즈니스 모델로 무궁무진한 스케일업이 가능합니다.
- **배운 교훈**: AI를 활용한 코딩이나 영상 렌더링 중 오류를 만났을 때 막연히 포기하지 말고, AI에게 "코드를 뜯어보고 물리적 파일 정보를 분석해서 원인을 찾아내줘"라고 구체적이고 과감하게 의뢰하는 것이 최고의 돌파구가 된다는 것을 배웠습니다.

---

## 🎯 이런 분들께 도움돼요
- **직접 마케팅 영상을 만들고 싶지만** 값비싼 외주 비용과 소통 지연 때문에 골머리를 앓는 1인 창업가 및 F&B 브랜드 기획자
- **프리미어, 애프터 이펙트 등 복잡한 편집 툴** 사용법이 낯설고 매번 자막 타이밍과 립싱크를 일일이 조정하는 수작업에 한계를 느끼는 분들
- **AI 코딩 툴이나 비디오 생성 AI의 실제 현업 적용 사례**를 찾고 있으며, 기술적인 연동 버그를 비개발자 수준에서 통쾌하게 뚫어내는 노하우가 필요하신 분들

---

## 😫 문제 상황 (Before)
가상 카페 브랜드 '카페메이트'의 두 마스코트 바리스타(행복을 주는 여성 바리스타와 즐거움을 주는 남성 바리스타)를 주인공으로 삼아, 카페의 따뜻함과 커피 브루잉의 전문성을 한 번에 어필할 수 있는 고감도 브랜드 숏폼 홍보 필름을 만들고 싶었습니다.

하지만 전문적인 촬영 및 조명 장비를 동원하자니 수백만 원에 이르는 예산과 일정 조율이 불가능했고, 그렇다고 AI로 만들어진 6개의 각기 다른 고화질 영상 조각들을 직접 매끄럽게 하나의 비디오로 결합하는 것은 산 넘어 산이었습니다.

특히 전통적인 영상 편집 프로그램에서 대사 싱크와 자막 자리를 일일이 잡고, BGM 오디오 레벨을 미세 조정하며 립싱크를 맞추는 노가다 작업은 초보자인 저에게 엄청난 압박이자 물리적으로 2~3일의 밤샘 작업을 요구하는 고단한 일이었기에 이 비효율을 무조건 해결해야 했습니다.

---

## 🛠️ 사용한 도구
- **AI 코딩 및 작업 조율**: Google Antigravity (Advanced Agentic Coding Agent)
- **비디오 생성 AI**: Google Veo 3.1 (`veo_native_speech` 음성 연동 기능 탑재)
- **이미지 생성 AI**: Google Gemini (실사 웰메이드 그래픽 엔진)
- **비디오 합성 & 렌더링 엔진**: Remotion (React, TypeScript 기반 자동 모션 그래픽 빌더)
- **프로젝트 모니터링**: Vanilla JS zero-dependency dashboard (Python http.server 구동)

---

## 🔧 작업 과정

### [1단계: 두 마스코트의 실사 프로필과 6씬 브랜드 시나리오의 탄생] - 첫 만남부터 실사풍의 정교한 기획까지

처음에는 아기자기하고 친숙한 느낌의 지브리 2D 수채화 애니메이션풍으로 기획을 시작했습니다. 두 캐릭터(카페메이트, 카페파트너)의 성격과 외형을 잡고 전신 프롬프트를 만드는 과정까지는 즐거웠지만, 브랜드의 품격과 커피의 디테일한 질감(드립 커피 방울, 스팀 우유의 결 등)을 극적으로 전달하기에는 2D 애니메이션보다 생생한 **'실사 사진풍(Photorealistic)'**이 훨씬 어울리겠다는 결심이 섰습니다.

갑작스럽게 비주얼 스타일을 완전히 뒤엎는 고난도 마이그레이션 요구에도 AI 어시스턴트는 흐트러짐이 없었습니다.

```
지브리풍 말고 실사 이미지로 프롬프트 바꿔줘
```

AI는 이 한 마디에 에피소드 기획서와 캐릭터 설정, 그리고 6개 씬의 모든 이미지/비디오 생성 프롬프트를 단숨에 깊이감 있고 세련된 실사 묘사(Warm natural morning light, shallow depth of field, detailed textures)로 재설계해 냈습니다.

특히 캐릭터의 일관성 유지를 위해 여성 바리스타에게는 **'따뜻한 오트밀 니트와 다크 브라운 앞치마'**, 남성 바리스타에게는 **'그레이 티셔츠와 동일 앞치마'**를 착용시켜, 서로 다른 6개의 씬이 재생되어도 동일한 공간에서 일하는 동료라는 브랜딩 정체성을 완벽하게 시각적으로 고정해 준 대목에서 큰 감동을 받았습니다.

---

### [2단계: Veo 3.1 립싱크의 기적] - 한국어로 말하며 입 모양까지 맞추는 영상 연출

브랜드 필름인 만큼 바리스타가 화면을 보며 "안녕하세요!" 하고 고객에게 따뜻한 한국어로 인사를 건네는 장면이 핵심이었습니다. 하지만 대부분의 글로벌 비디오 생성 모델은 영어 중심이기에, 한국어 목소리를 어설프게 올리면 립싱크가 뭉개지거나 입 모양이 아예 맞지 않는 참사가 흔히 발생합니다. 저는 이 난제를 해결하기 위해 AI에게 특단의 대책을 요구했습니다.

```
한국어로 말하는걸로 다시 프롬프트 만들어줘
```

AI는 단순히 한글 자막을 띄우는 것이 아니라, 비디오 생성 AI 모델인 Veo 3.1의 `veo_native_speech` 특성을 정밀 분석하여 비디오 생성 명령문 안에 **"perfect lip sync matching the spoken Korean dialogue" (발화하는 한국어 대사와 완벽하게 매칭되는 립싱크)**와 **"clear, warm, gentle Korean female voice" (맑고 따뜻하고 부드러운 한국인 여성 목소리)**라는 강력한 디렉팅 지시어를 정교하게 주입했습니다.

그 결과, 실제 렌더링된 비디오에서 바리스타가 카메라를 향해 온화한 미소를 지으며 실제로 흘러나오는 한국어 음성의 리듬과 글자 그대로 자연스럽게 입술을 움직여 발음하는 환상적인 립싱크 퀄리티를 구현할 수 있었습니다.

---

### [3단계: 1차 난관 - 엉뚱한 자막의 습격과 코드 분석 디버깅] - 타 프로젝트 자막 침투 버그 통쾌하게 해결하기

각 씬별 6개 영상을 대시보드에 탑재하고 드디어 Remotion 빌드 명령어를 실행해 설레는 마음으로 첫 병합본(`final.mp4`)을 확인했습니다. 그런데 청천벽력 같은 오류가 있었습니다. 바로 이전 치과 프로젝트에서 사용했던 "노쇼 3연속" 자막이 이 카페메이트 브랜드 영상의 깨끗한 실사 화면 한가운데에 무단으로 겹쳐 나와 립싱크 자막을 마구 가리고 있던 것입니다. 

비개발자인 저로서는 어떤 React 소스코드가 꼬여 이런 문제가 생겼는지 도저히 파악할 수 없어 한참을 낙담했습니다. 하지만 낙담하기엔 일렀습니다. 저는 AI 어시스턴트에게 상황을 설명하고 코드를 면밀히 추적해 해결해 줄 것을 요청했습니다.

```
자막이 말이랑 안 맞아 자막 빼줘
```

AI는 주저 없이 리모션의 렌더링 물리 소스코드인 `remotion/SceneClip.tsx`를 뜯어보기 시작했습니다. 그리고 놀라운 진단을 내놓았습니다. 서로 다른 별개의 프로젝트들이 동일한 씬 ID(`ep01-s01` 등)를 내부적으로 공유하다 보니, 리모션 합성 모듈이 카페메이트 씬을 읽어올 때 치과 프로젝트의 고정 자막 데이터를 함께 호출해 버리는 충돌 버그였던 것입니다!

AI는 즉각 `remotion/SceneClip.tsx` 내의 자막 렌더링 컴포넌트에 **"오직 치과 프로젝트 ID이고 자막 활성화 플래그가 참일 때만 자막을 그리도록"** 영리한 프로젝트 가드 코드를 단숨에 작성해 주었습니다. 동시에 `project.json`의 자막 옵션을 비활성화(`false`) 처리하여, 엉뚱한 자막 침투 현상을 단 5분 만에 완벽하게 소거하고 눈부시게 깨끗한 6개 씬의 오리지널 웰메이드 브랜드 화면을 복원해 냈습니다.

---

### [4단계: 2차 난관 - 영상 끝부분 3초의 유실] - 5초의 한계를 깨고 8초 일괄 확장 마이그레이션

하지만 기쁨도 잠시, 완성본을 찬찬히 재생해 보니 또 다른 심각한 문제가 눈에 들어왔습니다. 6개의 씬 중 **3번 씬(카페의 오후 전체 샷)과 5번 씬(커피 원두 향기 샷)의 끝자락이 매끄럽게 넘어가지 않고 툭 끊기듯 3초씩 잘려 나간 채** 다음 씬으로 넘어가는 것이었습니다. 

제가 촬영하고 합성한 개별 mp4 파일 자체는 분명히 길고 자연스러웠는데 왜 합쳐지기만 하면 끊기는지 영문을 몰라 깊은 한숨이 나왔습니다. 이때 AI 어시스턴트의 가동력이 빛을 발했습니다. AI는 "눈대중으로 짐작하지 말고 물리적 파일 속성을 직접 뜯어보자"라며 macOS의 파일 메타데이터 진단 도구인 `mdls` 명령어를 시스템 백그라운드에서 직접 구동했습니다.

그리고 명쾌한 원인 분석표를 제 앞에 내놓았습니다.
- **물리적 실제 파일 크기 및 길이**: 사용자가 생성하여 업로드한 6개의 씬 mp4 파일들은 메타데이터상 예외 없이 전부 **정확히 8.0초**였습니다.
- **프로젝트 설정 파일의 제약**: 그러나 숏폼 엔진의 세팅 데이터베이스인 `scenes.json` 파일에는 씬당 재생 시간(`duration_sec`)이 **5.0초**로 기본 선언되어 있었습니다.

즉, Remotion 합성 빌더가 8초짜리 최고 품질의 영상을 가져왔으나 설정에 적힌 5초 규격에 맞추기 위해 뒷부분 3초를 냉정하게 잘라버려 발생했던 현상이었습니다! 원인이 규명되자 저는 즉시 조치를 요청했습니다.

```
전체 8초로 연장
```

AI는 이 짧은 한마디를 입력받자마자 시스템 전체를 마이그레이션하기 시작했습니다.
1. 기획안 문서(`ep01.md`)에 반영된 총 러닝타임을 48초(씬당 8초 × 6개 씬)로 일괄 수정
2. 프로젝트 메타파일(`project.json`)의 `length_sec` 규격을 48초로 갱신
3. 핵심 데이터베이스인 `scenes.json` 내 6개 모든 씬의 재생 시간(`duration_sec`)을 일제히 8초로 확장 적용
4. 백그라운드에서 Remotion 합성 빌드 엔진을 최종 기동

이 놀라운 마이그레이션은 실시간 코딩과 설정 조율을 거치며 단 1분 만에 완벽하게 완수되었고, 마침내 3번과 5번 씬의 아름다운 뒷부분 3초의 여운까지 고스란히 담아낸 **최종 48초 분량의 초대형 고품질 브랜드 홍보 비디오(51.8 MB)를 합성하는 데 대성공**을 거두었습니다!

---

## ✅ 결과 (After)
이전에는 마케팅 쇼츠나 브랜드 필름을 한 편 기획해 만들기 위해 며칠 밤낮을 콘티 회의와 수작업 편집, 프리미어 타임라인 싱크 맞추기로 소모하며 허덕여야 했습니다. 

하지만 이번 협업을 통해 **기획부터 실사 프롬프트 튜닝, 버그 해결, 립싱크 조율, 그리고 최종 48초 고해상도 병합본 렌더링에 이르기까지 전 과정을 단 수십 분 만에 끝마치는 경이로운 혁신**을 체험했습니다.

### Before vs After
| 항목 | 기존 방식 (Before) | AI 파이프라인 (After) |
|------|--------|-------|
| **제작 및 편집 시간** | 약 2~3일 (콘티 작성, 편집 툴 삽질, 오디오 레벨 미세 조정 등) | **단 수십 분** (대시보드 기획 및 단 한 줄의 CLI 자동 합성) |
| **자막 및 립싱크** | 초 단위로 대사와 입 모양을 맞추는 노가다 수작업 | **Veo 3.1 립싱크 가이드 자동 주입**으로 완벽한 인라인 립싱크 구현 |
| **비즈니스 연속성** | 매번 다음 편 기획 시 원점에서 복잡하게 다시 기획·제작 | 프롬프트와 텍스트 대사 교체만으로 **10분 만에 2화, 3화 무한 양산** |
| **엔지니어링 트러블슈팅** | 코드 버그나 잘림 현상 발생 시 원인을 못 찾아 밤새며 구글링 | AI의 **시스템 메타데이터 정밀 진단 및 실시간 소스코드 패치**로 즉각 해결 |

### 결과물
- **최종 완성 비디오**: `projects/cafe_mate_shorts/outputs/ep01/final.mp4` (48초, 51.8 MB, 무자막 실사 고화질 브랜드 필름 패키지)
- **모니터링 대시보드**: `http://localhost:8000/dashboard/?project=cafe_mate_shorts` (에피소드 브리프, 6개 씬 및 캐릭터 2인의 실사 설정서 실시간 연동)

---

## 💬 이 과정에서 배운 AI 활용 팁

### 효과적이었던 것
1. **디테일한 립싱크 연출어 사용**: 비디오 생성 AI에 대사가 있는 씬을 연출할 때는 반드시 `perfect lip sync matching the spoken Korean dialogue` 같은 밀도 높은 립싱크 가이드를 프롬프트에 구체적으로 명시해야 입 모양 왜곡을 방지할 수 있습니다.
2. **AI 코딩 툴에 대한 대범한 의뢰**: 자막 오류나 재생 시간 잘림 같은 시스템 버그를 마주했을 때 어쭙잖은 텍스트 유추 대신 "설정 파일과 실제 비디오의 메타데이터를 정밀 대조하고 렌더링 코드를 직접 수정해 줘"라고 과감하게 핵심 업무를 위임하는 것이 수십 배 빠른 결과를 가져다줍니다.

### 이렇게 하면 안 돼요
1. **단편적인 결과 확인 후 추정 금지**: 영상이 잘려 나온다고 해서 단순히 "영상이 잘못 생성되었다"고 속단하여 다시 생성하는 데 리소스(비용, 시간)를 낭비하지 마세요. 반드시 `mdls` 같은 도구로 실제 물리 파일 길이를 먼저 팩트 체크하는 것이 순서입니다.
2. **스타일의 불일치 방치**: 6개 씬처럼 여러 개의 영상을 엮어 숏폼을 양산할 때는 단순 묘사만 뿌려서는 안 됩니다. AI에게 "등장인물의 의상과 배경 우드톤을 모든 프롬프트에 공통 키워드로 박아넣어 일관성을 고정해 줘"라고 반드시 지시하여 브랜딩의 퀄리티를 유지해야 합니다.

---

## 🌍 다른 업무에 적용한다면?
- **F&B 매장의 신메뉴 홍보**: 메뉴판 사진과 레시피 텍스트만 넣으면, AI가 맛깔스러운 시즐감과 드립핑 연출을 담아 10분 만에 홍보 릴스를 찍어내 고객 유입을 유도할 수 있습니다.
- **다국어 글로벌 마케팅**: 립싱크 프롬프트와 대사의 번역 언어만 영어, 일어, 중국어로 갈아 끼우면, 얼굴을 재촬영할 필요 없이 즉시 글로벌 광고 숏폼으로 확장하여 해외 시장 개척이 가능합니다.

---

## 🚀 앞으로의 계획
이번 1화 브랜드 필름의 완벽한 성공에 용기를 얻었습니다. 이제 이 강력한 Remotion 자동 합성 대시보드와 AI 비디오 파이프라인의 효율성을 극한으로 끌어올릴 생각입니다.

단순히 저희 카페 홍보를 넘어서, 주변의 소상공인들이나 타 F&B 브랜드의 고품격 숏폼 마케팅 콘텐츠를 자동으로 기획·촬영·합성하여 공급해 주는 **'1인 AI 영상 제작 대행 에이전시 비즈니스'** 모델을 정식 출범하고, 양산형 파이프라인의 엄청난 마진율을 비즈니스 가치로 실현해 나갈 예정입니다.

---

## 📋 재사용 가능한 프롬프트

### 프롬프트 1: 한국어 립싱크가 녹아든 고감도 실사 브랜드 필름 생성
> A photorealistic, high-quality cinematic close-up of a friendly female barista smiling warmly at the camera and speaking naturally, set in a cozy wooden-interior cafe with soft warm morning light. Clear professional cinematography, shallow depth of field. 
> [dialogue]: "안녕하세요! 따뜻한 행복을 드리는 카페메이트입니다." 
> [audio]: warm, gentle, calm Korean female voice with clear diction. 
> [motion]: perfect lip sync matching the spoken Korean dialogue.

### 프롬프트 2: 일관된 캐릭터 의상 및 브랜드 아이덴티티 시각화
> An extreme close-up of a professional male barista's hands carefully pouring hot water over fresh coffee grounds in a drip server, wearing a gray t-shirt and a dark brown apron consistent with the cafe mate brand identity. Steam rising gently in a cozy wooden cafe background, golden hour soft natural light.

(내용 입력)

진행 방법

어떤 도구를 사용했고, 어떻게 활용하셨나요?

Tip: 사용한 프롬프트 전문을 꼭 포함하고, 내용을 짧게 소개해 주세요.

Tip: 활용 이미지나 캡처 화면을 꼭 남겨주세요.

Tip: 코드 전문은 코드블록에 감싸서 작성해주세요. ( / 을 눌러 '코드 블록'을 선택)

(내용 입력)

결과와 배운 점

배운 점과 나만의 꿀팁을 알려주세요.

과정 중에 어떤 시행착오를 겪었나요?

도움이 필요한 부분이 있나요?

앞으로의 계획이 있다면 들려주세요.

(내용 입력)

도움 받은 글 (옵션)

참고한 지피터스 글이나 외부 사례를 알려주세요.

(내용 입력https://files-us-east-1.t-cdn.net/files/PnCnDoWNkhLAO66q1cwtG

final-noframe.mp4
49.96MB

)

2
1개의 답글

뉴스레터 무료 구독