AI Cover, 음정이 불안한 일반인도 먹힐까?(popcon vs sorisori)

지난주 발표를 진행하면서 든 생각은, “음정이 불안한 일반인을 위한 기능이 없을까?” 였습니다. 사실 파트너님은 garage band를 추천해주셨지만, 갤럭시는 garage band를 쓸 수 없는 것 같더라구요. 그래서 다른 방법을 찾아보기로 했습니다.

대안으로 생각한 것은, “AI에게 내 목소리를 학습시키고, 학습된 목소리를 기존 커버에 덧씌우면 어떻게 될까?”였습니다. 이런 경우 저작권의 문제에서는 자유롭지 못하지만, 개인소장용은 큰 문제가 없으니, 일단 진행해보기로했습니다.

2주차에 파트너님이 Popcon 사이트를 이용해서 스타일을 변환하는 시도를 보여주신 적이 있었는데, 그 때는 프로의 목소리로 프로의 노래를 커버하는 경우였으므로 AI가 좋은 샘플을 가지고 학습했겠다는 생각이 들었습니다.

이번에는 진짜 일반인의 약간은 조악한(?) 목소리 샘플을 가지고 AI는 얼마나 훈련을 잘할까? 를 확인해볼 수 있는 기회가 될 수 있으리라 생각합니다.

파트너님의 Popcon과 검색하다가 알게된 Sorisori 두 사이트를 비교해보도록 하겠습니다.

팝콘은 파트너님이 잘 정리해두셨으니, 소리소리 사이트를 먼저 소개드립니다.

<SoriSori>

1. 무료 요금제

- 무료 음성학습 1회 가능
- 45초까지밖에 커버곡이 제작되지 않음

2. AI 음성학습
- 학습음원은 양보다 질!
- 오토튠 등 과도한 음향효과가 들어간 곡은 X
- 커버곡 : 정식음원 추천
- 솔로곡만 사용가능 (화음많은 곡 X)
- 랩을 커버하는 경우 랩 음원을 추천
- 휴대폰 녹음기 가능 → 한번에 모두 녹음할 필요 없음 (끊어서 가능)
- 무반주 녹음 추천
- 음성학습은 2~3시간 소요 (라고 쓰여있지만 저는 한 15분 정도 걸렸습니다.)

3. AI 커버 제작
- "제작기록"에서 AI음성학습 종료여부 확인 후 커버제작 가능
- (1) 노래 업로드
- (2) AI 선택과 키조절 :
☞ 남성 학습음성으로 여성원본 음원 커버시 -4~6
☞ 여성 학습음성으로 남성원본 음원 커버시 +4~6
- (3) 이름 정하기

4. MR제거
- 이건 번외편인데, 보컬만 추출하거나, MR만 추출할 수 있는 기능이 있습니다. 상당히 잘 추출이 되긴 했지만, 상업용, 혹은 공연용으로 쓰기엔 조금 음질이 기계스럽다는 느낌이 있었습니다.

1. 보컬 : 보컬만 추출 / 2. 반주 : MR만 추출 / 3. 코러스 : 코러스만 추출

<Popcon>

- 파트너님의 글에 잘 정리되어있으니 이전글을 참조해주세요.
https://www.gpters.org/aimusic/post/teaching-ai-sing-my-ekFgXoPmiVN0uux

<SoriSori vs Popcon>

1. 같은 곡을 불러서 학습시키고, 같은곡을 커버대상곡으로 주었을 때 (대성당들의 시대)

- 학습대상곡 : https://www.youtube.com/watch?v=pbqH4CWMxoY

☞ 소리소리 :

[무료버전 소리소리AI 워터마크포함]라이언 대성당.mp3

- 학습이 잘 되지 않은 느낌
- 중간중간 가래끓는 소리
- 기계음이 많이 섞임
- 원본 목소리와 학습목소리가 섞인 느낌

☞ 팝콘 :

popcon-Lion-대성당.mp3

- 1절은 비교적 무난하게 가는 느낌(학습 데이터가 1절임)
- 외국인 발음 느낌
- 음이 하나밖에 등장하지 않았는데, 부정확한 샘플이 있는 경우 결과물이 망가짐
- 클라이막스 가면 삑사리 + 대환장 파티 ㅋㅋㅋ (2분이후) → 끝까지 안불러서 그런듯

2. A곡으로 학습데이터를 주고, B곡을 커버대상곡으로 주었을 때
(대성당시대 -> 헤어지자말해요)

- 학습대상 음원 :

☞ 소리소리 :

[무료버전 소리소리AI 워터마크포함]라이언 박재정.mp3

- 뭔가 목소리는 바뀌었지만, 원본에 많이 가깝고 거의 안바뀐 느낌?

☞ 팝콘 :

popcon-Lion-박재정 헤어지자말해요(라이언 커버).mp3

- 목소리가 소리소리보다는 많이 바뀌었고, 학습자의 목소리 느낌이 약간 더 더해지긴 했음
- 두번쨰 소절+클라이막스부터는 좀 비슷해지는 느낌이 있음
- 여전히 외국인 발음 느낌
- 꺾기 쿠세를 카피해감... (ex.미칠듯 "사"랑했던)

<결과물 정리>

- 팝콘은 더 나은 모습을 보여주긴 했지만, 결과물의 퀄리티가 양극화되어서 호기심을 자극하는 정도 이상은 X

- AI 커버의 대중화 가능수준은 X : 학습데이터가 전문가의 정확한 음정이나 보정한 음정을 써야만 하는 상태라면 아직까지는 AI 커버의 대중화는 어려울 것

- (기대점) 추가학습이 이루어진다면? : 하지만 문제가 나타나는 부분들이 대부분 제가 음정을 안 부르고 갔을 때 나타나는 부분들이 아니었나 하는 생각이 들어서 여러 노래로 학습을 시키면 더 나은 모습이 보이지 않을까 하는 기대감은 가지고 있습니다.

<향후 과제>
아쉽게도 무료 Credit을 다 써서.. 혹시 우리방 다른분들 중에 관심있으신 분들이 있으시면 테스트해서 결과를 공유해주시는것도 좋을 것 같습니다.

1. 한 곡을 여러번 부른 샘플을 학습시키면 결과가 달라질지?

2. 더 많은 곡을 학습데이터로 주면 후반부 대환장파티가 개선될지?

감사합니다.

#9기음악방

📣 24기 대기자 모집이 시작되었습니다!

AI Cover, 음정이 불안한 일반인도 먹힐까?(popcon vs sorisori)

뉴스레터 무료 구독