Antigravity 입문자의 자막, 음성 트러블 돌파기

소개

지난 주 Antigravity를 처음 접하고 영상제작 자동화를 위해 고군분투 중입니다.
에이전트가 편리하면서도 답답한 부분이 너무 많더군요. 왜 완전 자동화를 못하고, 중간중간 확인절차를 요구하는지 금새 이해되었습니다.

다양한 어려움이 있었지만, 우선 음성/자막 부분에서 제가 겪은 트러블과 이를 관리하였던 경험 공유합니다.

진행 상황

1. 🔇 영상에 주인공 목소리가 쏙 빠진 문제

- 문제 상황: 인공지능이 영상을 다 만들었다고 해서 틀어봤더니, 배경음악만 흐르고 등장 인물의 목소리가 전혀 나오지 않았습니다. 에셋에는 나레이션 파일이 존재하나 병합된 영상에는 없는 상황입니다.

- 원인 분석: 검토 절차가 누락된 조립 과정이 문제였습니다. AI가 그린 '원본 영상' 자체는 무성 영화처럼 원래 소리가 들어있지 않습니다. 그런데 컴퓨터가 영상들을 하나로 엮는 과정에서, 없는 소리에 목소리를 섞어보려다가 무작정 멈춰버렸습니다. 이후 에러가 났다면 사용자에게 알려 검토를 거쳐야 하는데, "소리가 없어도 그냥 껍데기 영상으로 이어 붙인다"라는 임시방편(과거 작업 잔재)이 작동하면서 소리 없이 렌더링을 끝내버린 것입니다.

- 대응 및 해결방안: 100% 정상 작동하는 원본 파일들은 이미 안전하게 저장소에 보관되어 있습니다! 영상, 목소리, 배경음악 파일은 이미 완성되어 있으므로 처음부터 재작업할 필요가 없습니다. 영상과 목소리를 포개어 합칠 때 오류를 피하도록 '조립 설명서' 딱 1줄만 고친 뒤 합치기 버튼을 다시 누르면 1분 안에 목소리가 담긴 제대로 된 영상이 나옵니다.

2. ⏱️ "화면은 벌써 지나갔는데, 대사는 왜 이제 나와?" (싱크 밀림 현상)

- 문제 상황: 에피소드 후반부로 갈수록 화면과 자막이 따로 놀았습니다. 누군가 뒤에서 허둥지둥 대사를 늦게 말하는 것처럼 10초 넘게 쭈욱 밀리는 "싱크 도미노 현상"이 있었죠.

- 원인 분석: 모든 AI 영상 조각은 무조건 8초 고정이지만, 등장인물이 한 문장을 말하는 데에는 짧으면 3초, 길면 7초로 매번 길이가 다릅니다. 이 서로 다른 길이를 하나하나 정밀하게 자르고 재지 않는 '검토 절차 누락' 때문에 문제가 되었습니다. 3초 대사 후에 나오는 5초의 가만히 있는 공백 동안, 다음 대사가 앞으로 오지 못하고 뒤통수를 맞은 듯 뒤로 밀려나는 일들이 누적된 것입니다.

- 대응 및 해결방안: 대사 길이에 딱 맞춰서 쓸데없는 뒷부분 영상들을 가위로 깔끔히 잘라내는 '트리밍' 절차를 도입했습니다. 이제 대사가 끝남과 동시에 화면도 칼같이 다음으로 탁탁 넘어가서 어색함이 모조리 사라졌습니다.

3. 📝 "자막 문장이 엉뚱하게 끊겨서 내용이 안 들어와요" (가독성 오류)

- 문제 상황: 초반 영상에서는 "대룡시장에는 처마마다 제비집이/있어"처럼 문장의 의미와 전혀 상관없이 기계적인 어절 단위로 자막이 짧고 어색하게 뚝뚝 끊어졌습니다. 영상의 내용을 전달하지 못해 불편함을 주었습니다.

- 원인 분석: 사람이 읽기 편한 '자연스러운 의미 단위'를 잡아주는 검토 절차가 누락된 채, 단순히 띄어쓰기(어절 단위)만 세어서 기계적으로 시간을 쪼개는 과거의 조립 방식을 그대로 사용했기 때문이었습니다.

- 대응 및 해결방안: 기계적인 띄어쓰기 쪼개기를 폐기했습니다. 사람의 숨소리(쉼표, 마침표)와 말의 덩어리 단위로 자연스럽게 묶어 화면에 띄우는 방식을 도입해, 대화 내용이 물 흐르듯 읽히도록 뿌리부터 시스템을 바꿨습니다.

4. 🗣️ 한국어 영상인데 캐릭터가 영어로 뻐끔거리는 현상 (프롬프트 오류)

- 문제 상황: 한국어 음성이 나와야 하는데, 갑자기 캐릭터 입모양이 영어 발음을 내뱉듯이 뻐끔거리거나 영상 화면 위에 뜬금없는 영어 워터마크가 나타나는 황당한 현상입니다.

- 원인 분석: 영상 제작을 AI에게 지시할 때 쓰던 낡은 대본 지시서 구석에, 예전에 테스트용으로 썼던 영문 대사가 이전 작업의 잔재로 지워지지 않고 남아있었던 것이 원인입니다. 영상 AI는 이를 보고 "화면에 영어 대사 글자를 집어넣거나 영어로 말하라는 거구나!"라고 엉뚱하게 오해해버렸습니다.

- 대응 및 해결방안: 영상 AI에 내리는 모든 지시서에 "모든 대사는 한글이다", "절대 화면 속에 대사 글자를 그리지 마라! (No text, no subtitles)" 라는 가장 강력한 사전 차단 규칙을 심어, 원천적으로 꼬일 수 없게 만들었습니다. 구글 나노바나나 버젼 문제인지, 한글 텍스트를 넣어도 이상하게 입력되는 경우도 많았기에, 일단 넣지 않는 편이 여러모로 좋았습니다.

5. 🔀 "나레이션과 영상 화면이 뒤죽박죽 꼬이는 현상" (매칭 오류)

- 문제 상황: 3번 카메라 씬에 4번 할머니 대사가 흘러나오는 등, 영상과 대사가 줄줄이 톱니바퀴가 엇나가듯 완전히 꼬여버린 현상입니다.

- 원인 분석: 대본 사이에 대사가 한 마디도 없는 '묵음 씬'이 끼어있거나, 영상을 뽑다가 하나가 에러가 났을 때 이를 잡아내는 검토 절차가 누락되었기 때문입니다. 처음부터 순서대로 1,2,3번씩 묶어나가다가, 중간에 숫자가 하나 빠지니까 뒤이어 나오는 모든 영상과 대사가 줄줄이 남의 짝과 맺어지는 대참사가 났습니다.

- 대응 및 해결방안: 앞으로 컴퓨터가 편하게 뭉텅이로 묶는 방식을 버렸습니다. "어떤 씬이든 무조건 대사나 속마음을 넣어라(묵음 불가)"는 지침과 함께, "1번 대사는 무조건 1번 영상 파일 이름명으로만 짝을 지어라"라는 아주 강력한 1:1 매칭 안전망을 도입했습니다.

6. 📝 대본이 두 개? "목소리와 화면 속 자막 글자가 달라요" (스크립트 불일치)

- 문제 상황: 영상 안에서 귀로 들리는 목소리 내용과 화면 밑에 적히는 자막 글씨가 다른 내용인 경우

- 원인 분석: 음성 나레이션 제작용 스크립트와, 화면에 자막을 덧씌우는 조립 스크립트가 서로 "각자 다른 버전의 낡은 대본"을 읽어오는 심각한 이중 구조 문제(데이터 확인 검토 누락)였습니다. 시나리오 대사를 멋지게 바꿨는데, 목소리 만드는 시스템은 바뀐 새 대본을 읽었지만 자막 만드는 시스템은 여전히 낡은 이전 작업의 잔재 대본을 읽고 있었던 셈입니다.

- 대응 및 해결방안: 파이프라인 구조를 대공사하여 '모든 팀원이 똑같은 1개의 대본(단일 진실 공급원)'만 바라보고 읽어 오도록 정비했습니다. 언제 누군가 대사를 살짝 바꾸더라도, 음성과 자막을 만드는 인공지능이 무조건 한 곳만 바라보게 해서, 앞으로 100% 동일한 싱크와 글자 통일성이 유지될 수 있도록 근본적으로 체계를 바꿨습니다 (이 사항은 타 팀이나 다음 프로젝트에도 공유해야 할 핵심 개선안으로 전역설정으로 지정하였습니다.)

결과와 배운 점

1년 반? 2년여만에 다시 참여한 스터디가 참 즐겁습니다. 당시 autogpt를 보고, 하나하나 배울 것이 아니라 에이전트를 부릴 수 있는 순간이 오면 다시 돌아오자 생각했는데, 이제서야 남 시키기 좋아하는 제 적성에 맞는 작업을 하게되어 행복합니다.

머리가 똑똑하지 않으면 손발이 고생한다 합니다. 제가 디렉을 정확히 내리지 않을 때, 내 에이전트가 고생하는 것을 보고 미안함을 느끼고, 파이프라인을 더욱 정교하게 다듬어야겠다 다짐합니다.

20개의 주제를 확인해보세요! AI 스터디 슈퍼 얼리버드 시작🕊️