나는 바이브 코딩 방식으로 짧은 오디오와 영상 내용을 빠르게 텍스트로 바꿔 주는 전사 웹사이트를 만들었다. 예를 들면 TikTok Transcript, Instagram Transcript 같은 진입점을 통해 숏폼 영상을 바로 텍스트와 자막 파일로 바꾸는 식이다.
처음부터 큰 플랫폼을 만들 생각은 아니었다.
출발점은 아주 단순했다. 콘텐츠 제작자, 마케터, 리서처들은 짧은 영상이나 오디오에서 말한 내용을 텍스트로 정리해야 하는데, 직접 멈추고 다시 듣고 받아 적는 과정이 너무 오래 걸린다는 점이었다.
그래서 제품 설계도 최대한 짧은 흐름에 맞췄다.
링크를 넣는다
전사 결과를 빠르게 만든다
TXT,SRT,VTT로 내보낸다이후 분석, 자막 작업, 2차 콘텐츠 제작에 재활용한다
기술적으로는 몇 가지 핵심 기능에 집중했다.
AI 기반 음성 인식과 전사
짧은 영상/오디오에 맞춘 텍스트 정리
설치 없이 바로 쓸 수 있는 웹 기반 흐름
배치 처리와 다양한 내 보내기 포맷
다국어 지원과 기본적인 개인정보 처리
바이브 코딩이 가장 도움이 된 부분은, 아이디어를 빠르게 실제로 써볼 수 있는 형태로 바꾸고 곧바로 다듬을 수 있었다는 점이다.
처음부터 복잡한 문서와 긴 계획을 쌓기보다, 먼저 동작하는 버전을 만들고 사용 흐름을 보면서 개선하는 데 더 잘 맞았다.
결국 이 프로젝트는 기술 과시용이라기보다, 구체적인 문제 하나를 먼저 해결하는 방식으로 출발한 제품에 가깝다.
오디오와 짧은 영상을 텍스트로 바꾸는 경험을 충분히 매끄럽게 만들면, 그 다음에는 자막 제작, 자료 정리, 콘텐츠 분석 같은 기능도 자연스럽게 확장할 수 있다.