안녕하세요.
이번에도 Remotion을 하려다가 또 옆길로 샜습니다.
결과적으로는 영상보다 오디오 쪽에서 삽질하다가, 오픈소스로 다시 가능성을 확인한 후기가 됐어요.
소개
제가 처음 하려던 건 영상에 들어갈 나레이션 출력이었습니다.
원래는 오픈소스 기반으로 해결해보고 싶었는데,
당시에는 결과가 제대로 음성처럼 나오지 않고 계속 노이즈처럼 재생되는 문제가 있었습니다.
그래서 그때는
“이건 내가 아직 오픈소스로 다루기엔 기술적으로 어렵다”
라고 판단했고,
결국 API 키를 받아서 나레이션을 진행하는 방향으로 우회했었습니다.
그때는 사실상
• 오픈소스는 실패
• API 방식으로 실전 처리
이렇게 정리한 상태였어요.
진행 방법
그런데 오늘 다시 LTX 오픈소스 쪽을 붙잡고 재도전해봤습니다.
이번에는 단순히 “오디오가 붙는다”가 아니라,
실제로 의미 있는 출력이 되는지를 기준으로 확인해봤습니다.
확인 순서는 두 단계였습니다.
1차 확인
먼저 나레이션이 실제로 출력되는지 확인했습니다.
예전에는 여기서부터
• 말처럼 들리지 않거나
• 잡음처럼 깨지거나
• 결과를 쓸 수 없는 상태가 많았는데,
이번에는 적어도 나레이션이 나레이션으로 들리는 수준까지 올라온 걸 확인했습니다.
2차 확인
그다음은 노래/음악과 노래 생성까지 확인했습니다.
즉 이번엔 단순히 “말소리 한 줄 겨우 나온다”가 아니라,
• 한국어 음성 계열
• 노래 계열
까지 확장 가능성이 보이는 상태 까지 간 거예요.
결과와 배운 점
이번 작업의 핵심은
예전에 실패라고 판단했던 오픈소스 LTX 흐름을, 오늘 다시 성공 쪽으로 돌려놨다는 점입니다.
특히 의미 있었던 건 두 가지였습니다.
• 첫 번째: 나레이션 출력 확인
• 두 번째: 노래/음악과 노래 생성 확인
이전에는 오픈소스로는 계속 노이즈가 나와서
결국 API 방식으로 돌아설 수밖에 없었는데,
이번에는 다시 오픈소스 기반으로도
“아예 안 된다”가 아니라
조건을 잘 맞추면 된다는 걸 확인한 셈입니다.
개인적으로는 이게 꽤 컸습니다.
왜냐하면 한 번 실패로 정리했던 흐름을 다시 열었다는 뜻이니까요.
또 이번에 느낀 건,
문제가 “모델이 안 된다”가 아니라
내가 연결하는 방식과 워크플로우 정리가 부족했던 부분도 컸다는 점이었습니다.
즉 예전엔 기술적 한계라고 생각했는데,
지금 보니 일부는 구조를 다시 맞추면 해결 가능한 문제였던 거죠.
앞으로의 계획
앞으로는 이 흐름을 바탕으로
• 나레이션 품질 안정화
• 한국어 출력 안정성 확인
• 노래/음악 쪽 재현성 확인
• 다시 돌려도 비슷하게 나오는 워크플로우 정리
까지 이어가보려고 합니다.
단순히 “한 번 됐다”가 아니라
반복 가능하고 재현 가능한 오픈소스 제작 흐름으로 만드는 게 다음 목표입니다.
도움이 필요한 점
오픈소스 기반으로 나레이션이나 노래 생성까지 안정적으로 가져가본 경험이 있으신 분이 있다면, 품질을 더 안정화하는 팁이나 워크플로우 조언 부탁드립니다.