SunoV3, Udio 등 훌륭한 music llm 서비스들이 나왔고,
만족하였으나, 아쉬운 부분 몇가지 있었다.
4분짜리 verse chorus 구성(coherent한 구성)은 힘들다는 것.
Chorus 부분이 사람 노래처럼 멋지게 하이라이트를 치지 못한다는 것.
직접 모델 하나 가지고 트레이닝 하면 어떨 결과가 나올지 궁금해서 진행해보았다.
욕심 같아서는 verse 모델, chorus 모델용으로 동일 모델을 다른 dataset chunk로 훈련시키고, 메인 모델로 verse, chorus를 받아서 연결? 시키는 컨셉을 상상해보았으나,