리모션인줄알고해봤던 엉뚱한 후기[미니사례]

## 소개

이번에는 Remotion을 써보려다가, 예상과는 전혀 다른 방향으로 흘러가면서 오히려 더 큰 자동화 파이프라인을 만들게 된 경험을 정리해봤습니다.

처음에는 단순히 한국 SF 드라마 예고편 같은 숏폼 영상을 AI로 만들어보고 싶다는 생각이었는데, 하다 보니 이미지 생성, 영상 생성, 더빙, BGM, 최종 합성까지 한 번에 이어지는 구조를 3일 동안 붙이게 됐습니다.

결과적으로는 “리모션을 써보자”로 시작했지만, 실제로는 AI와 함께 영상 제작 공정을 통째로 자동화하는 쪽으로 훨씬 크게 흘러간 사례였습니다.

## 진행 방법

처음에는 전체 흐름부터 쪼갰습니다.

- 대본

- 이미지

- 영상

- 더빙

- BGM

- 최종 합성

이 구조를 기준으로 각 단계를 따로 처리할 수 있게 만들었습니다.

처음에는 이미지와 영상을 같은 흐름 안에서 해결해보려고 했지만, 결과물이 계속 마음에 들지 않았습니다.

이미지 쪽은 처음 접근했던 방식 대신 Z-image로 바꿨고, 이 변경 이후 원하는 분위기와 연출 톤을 더 안정적으로 맞출 수 있었습니다.

영상 생성은 처음에 LTX 2.3으로 진행했습니다. 아직 오픈소스 영상 생성 도구를 충분히 잘 다루는 수준은 아니더라도, 직접 VRAM을 활용해서 로컬에서 영상을 제작해보고 싶다는 의도가 있었기 때문입니다.

다만 실제로 돌려보니 제가 아직 오픈소스 툴 체인에 완전히 익숙하지 않아서 세팅이나 결과 제어가 생각만큼 잘 되지 않았고, 그 영향도 있었는지 결과물에 노이즈가 계속 섞였습니다. 그래서 이번에는 무리하게 한 도구를 끝까지 고집하기보다, 결과물 기준으로 판단해서 영상 생성 쪽은 최종적으로 Qwen 2.2로 변경했습니다.

더빙은 여러 TTS를 바꿔가며 테스트했고, 최종적으로는 Supertone API 쪽이 가장 안정적이었습니다. 이번 작업에서 유료 요소는 Supertone뿐이었지만, 실제 제작에는 무료 크레딧을 사용해서 진행했습니다.

이 과정에서 가장 오래 걸린 건 TTS와 싱크 문제였습니다. 처음에는 음성을 각 씬 길이에 맞춰 계산해서 얹는 방식으로 갔는데, 씬이 늘어날수록 타이밍 오차가 누적됐습니다.

그래서 중간에 방식을 바꿨습니다.

- 씬 영상을 먼저 하나의 무음 마스터로 합치고

- 음성을 전체 타임라인 기준으로 다시 배치하는 방식

이렇게 바꾸고 나서야 오디오 싱크가 훨씬 안정적으로 맞았습니다.

BGM도 따로 사서 쓰기보다 직접 합성하는 방향으로 갔고, 마지막에는 대사가 나올 때 음악이 자연스럽게 줄어들고 끝나면 다시 살아나는 오디오 덕킹까지 붙였습니다.

## 결과와 배운 점

이번에 가장 크게 느낀 건, AI로 영상 제작을 한다고 해서 한 번에 끝나는 건 아니라는 점이었습니다.

오히려 실제로는

- 이미지 생성 도구 변경

- 영상 생성 도구 변경

- TTS 교체

- 싱크 방식 재설계

- BGM과 대사 믹싱 조정

이런 식으로 여러 번 방향을 틀어야 했습니다.

그런데도 좋았던 점은, 한 번 구조가 잡히고 나니 그다음부터는 훨씬 재사용 가능한 파이프라인으로 바뀌었다는 점입니다.

특히 이번 작업에서 배운 건 아래 세 가지였습니다.

- 결과물이 마음에 안 들면 도구를 고정하지 말고 갈아탈 줄 알아야 한다

- 이미지와 영상은 같은 계열 도구로 묶기보다, 결과 기준으로 각각 더 맞는 도구를 따로 고르는 편이 낫다

- AI는 구현 속도는 빠르지만, 품질 기준과 방향은 사람이 계속 잡아줘야 한다

또 하나 느낀 건, 오픈소스를 직접 다뤄보는 경험 자체는 분명 의미가 있었지만, 실제 결과물을 빨리 만들어야 하는 상황에서는 “지금 내가 잘 다룰 수 있는가”도 도구 선택 기준에 꼭 들어가야 한다는 점이었습니다.

즉 이번 작업은 단순히 어떤 모델이 더 좋으냐의 문제가 아니라,

내가 현재 다룰 수 있는 숙련도와 원하는 결과물, 그리고 로컬 자원 활용 의도를 같이 보면서 조정한 과정에 더 가까웠습니다.

처음엔 Remotion을 해보려던 건데, 결과적으로는 더 큰 범위의 영상 자동화 구조를 만들었다는 점이 가장 엉뚱하면서도 재밌는 부분이었습니다.

## 앞으로의 계획

다음에는 이 구조를 에피소드 단위로 더 쉽게 재사용할 수 있게 다듬어보려고 합니다.

예를 들면

- 다음 에피소드 자동 생성

- 자막 자동 생성 추가

- 캐릭터별 음성 다양화

- 반복 영상 제작 흐름 템플릿화

이번 경험을 통해 느낀 건, AI로 영상 만드는 일은 “한 번 멋지게 뽑기”보다 “다음 것도 같은 품질로 다시 만들 수 있게 구조화하기”가 더 중요하다는 점이었습니다.

도움이 필요한 점은 현재 구조를 다음 단계로 확장할 때 우선순위를 어떻게 잡는지에 대한 조언이 필요합니다.

ARIA.mp4
34.33MB

뉴스레터 무료 구독

👉 이 게시글도 읽어보세요