AI 도구 연계와 리모션 합성: '순간이동 여행자' 숏폼 제작기

1. 제작 과정 (How)

이 프로젝트는 사람의 기획 의도에 맞춰 다양한 AI 도구를 유기적으로 연계하고, 최종 합성을 코드로 제어하는 방식으로 제작했다.

  • 아이디어 구체화: ChatGPT와의 개별 아이데이션을 통해 '순간이동을 하는 여행자'라는 초안 컨셉을 도출하고, 이를 안티그래비티에 입력했다.

  • 하네스 기반 기획 고도화: 스터디장 물결님이 구축한 하네스 규칙을 바탕으로, 안티그래비티가 메인 캐릭터(주인공)의 세부 설정을 정립하고 4개 씬의 대본과 연출안을 작성했다.

  • 구글 플로우를 통한 캐릭터 일관성 제어: 캐릭터 비주얼 일관성을 유지하기 위해 기준 초상화를 구글 플로우(Google Flow)에 캐릭터로 등록했다.

    밤에 타임스퀘어에 서 있는 트렌치 코트를 입은 여자
    스웨덴 스톡홀름의 한 건물 앞에 한 여성이 서 있다.

  • 씬별 에셋 생성: 안티그래비티가 설계한 초상화 프롬프트를 사용하여 ChatGPT에서 고해상도 이미지를 얻었다. 이후 안티그래비티가 제안한 영상 프롬프트와 해당 초상화를 조합하여 구글 플로우 내 제미나이 옴니 플래시(Gemini Omni Flash / Veo)로 씬별 영상을 생성했다.

2. 발생했던 기술적 문제 (Trouble)

생성된 개별 영상 파일들을 저장소에 업로드하고 리모션(Remotion)으로 최종 합성을 진행하는 단계에서 여러 에러와 작동 오류가 발생하여 하루 이상의 조정 시간이 소요되었다.

  • 원본 영상 오디오 누락:

    • 제미나이 옴니 플래시로 생성한 영상 속 한글 대사 음성이 리모션 컴포지션 내에서 음소거(Mute) 처리되었다.

    • 음성 파일 매핑 로직 오류와 리모션의 비디오 오디오 제어 코드가 충돌하여 인물의 한글 대사는 들리지 않고 화면 하단에 텍스트 자막만 노출되는 현상이 발생했다.

  • 순간이동 전환 효과(트랜지션) 누락:

    • 서울, 파리, 뉴욕, 스톡홀름 각 씬을 자연스럽게 이어주는 순간이동 효과(Whip Pan, 플래시 전환)가 화면에 나타나지 않았다.

    • 이는 씬 데이터(`scenes.json`)의 씬 ID 명명 규칙과 리모션 React 코드 내부의 씬 식별자 맵핑이 일치하지 않아 전환 효과 시퀀스가 작동하지 않은 것이 원인이었다.

  • 렌더링 빌드 에러:

    • 작업 저장소 내 에셋 파일들의 경로 매니페스트 불일치로 인해 로컬 미리보기 실행 시 컴파일 에러가 지속적으로 발생했다.

3. 해결 방안 (Action)

리모션 컴포지션의 세부 코드를 수정하고 데이터 흐름을 정렬하여 문제를 해결했다.

  • 영상 원본 음원(한글 대사) 복구 및 사운드 조율

SceneClip.tsx 내부에서 외부 TTS 파일(`voice`)이 없을 때 원본 영상(`video`)의 사운드가 활성화되도록 오디오 음소거 로직(`muted={!useVideoAudio}`)을 수정했다.

* 루프백 BGM 오디오 볼륨을 0.14 수준으로 조절하여, 배경음악이 출력되는 상황에서도 영상 내 한글 대사 소리가 겹치거나 묻히지 않도록 청각적 밸런스를 맞췄다.

  • 씬 식별자 동기화를 통한 전환 효과 복원

    • scenes.json에 선언된 씬 ID 형식과 리모션 내부 트랜지션 모듈에 쓰이는 식별자 간의 연동 로직을 일치시켰다.

    • 이를 통해 각 씬의 경계 프레임을 계산하여, 씬 전환 시 10프레임 동안 작동하는 흰색 플래시 및 화면 왜곡 효과(`TeleportFlash`)를 정상적으로 구현했다.

  • 에셋 매니페스트 생성 스크립트 실행

    • 렌더링 시 경로 유실 에러를 방지하기 위해, 저장소 내 실제 파일 목록을 실시간으로 추적하여 generated-file-manifest.ts 파일로 자동 기록해 주는 헬퍼 스크립트를 빌드 전 단계에 적용했다.

4. 느낀 점 및 배운 점 (Lessons Learned)

  • 최종 합성 단계의 중요성: AI 도구로 완성도 높은 이미지와 비디오 클립을 생성하는 것만큼이나, 이들을 하나의 미디어로 엮고 제어하는 최종 합성(포스트 프로덕션) 공정에 많은 시간과 정밀한 코드 디버깅이 필요함을 확인했다.

  • 멀티 AI 및 개발 프레임워크 연계: ChatGPT의 기획 지원, 구글 플로우의 일관성 제어, 제미나이의 렌더링 능력, 그리고 리모션의 코드 기반 제어가 정확히 결합될 때 기획 의도에 부합하는 완성본을 도출할 수 있다.

  • AI 영상 제작의 첫 소회:

    • 이번 프로젝트는 AI를 통해 동영상을 제작해 본 첫 경험이었다.

    • 코드 빌드 오류와 에셋 분류 등 많은 에러를 마주하고 단순 반복적인 수정 작업을 거치기도 했으나, 텍스트와 초상화만으로 상상 속 시네마틱 영상을 빚어내는 AI의 다채로운 기능들은 매우 놀라웠다.

    • 기존의 수작업 편집 한계를 넓혀주는 기술적 가능성을 실감하며, 에러 디버깅조차 창작의 재미있는 여정으로 느껴졌다.

뉴스레터 무료 구독