[11기허깅페이스] 'Voice Clone' Space 한국어 테스트

안녕하세요.

저는 IT 회사에서 서비스 기획자로 일하고 있는 샤나입니다.


개발자가 아닌 기획자이기 때문에,

Hugging Face의 모델을 활용해서 직접 개발하기 보다는

다양한 모델들을 보며 서비스에 적용할 아이디어를 얻고자 클럽에 조인했습니다.


첫째 주 강의에서 클럽장님이 주신 팁대로, Space에 있는 모델들을 보았는데요.

Voice Clone 이라는 모델이 있어 테스트해 보았습니다.

Voice Clone - a Hugging Face Space by tonyassi


올 초에 시니어 대상 서비스를 기획하면서, 유저가 원하는 목소리을 AI말벗 페르소나에 입힐 수 없을까란 고민이 있었는데요.

그래서 당시 Elevenlabs라는 서비스에서, 성시경 목소리를 cloning 테스트해 보았습니다.


테스트 내용은 아래 블로그 글을 보시면 좀 더 자세히 확인하실 수 있는데요.

페르소나 생성을 위한 Voice Cloning API 테스트 후기


결과적으로 한국어도 꽤 괜찮은 수준의 Voice Cloning 결과물이 생성되었습니다.


얼마 후에 Open AI도 사이트에 Voice Cloning model을 공개했지요.


Hugging Face의 Voice Cloning은 완성도가 어떨지, 한국어 지원이 될지 궁금하여 사용해 보았습니다.

XTTs2라는 모델이 기반이네요.

사용법은 간단합니다. Cloning 하고픈 목소리 파일을 올리고, 발화용 Text를 입력한 후 전송하면, 우측에 Cloing Voice가 해당 Text를 읽은 파일이 추출됩니다.


저는 위에 올렸던, 성시경 님의 동일한 라디오 방송 파일로 테스트했습니다.

그리고 한글 문장을 넣어 Cloning된 Voice로 읽도록 요청했지요.

그럼 결과는?

output.wav

이것은 대체 무슨 나라 언어인가요? ㅎㅎㅎ

한글 지원이 전혀 안 되나 봅니다.


그럼 동일한 성시경의 목소리 파일을 복제하고, 영어 문장(Good Night! See you tomorrow.)을 읽도록 해보았습니다.

결과는..

output (1).wav

영문을 읽긴 하는데, 끊어 읽는 구간 매우 어색하네요.

원본 파일에서 말하는 어투가 반영되면서 생긴 현상 같습니다.

그래도 Voice 톤은 꽤 유사하네요.


그럼, 미국인의 영문 발화 목소리를 학습시키고, 영어 문장을 말하게 한 결과는 어떨까요.

여기서 샘플로 제공하고 있는 메간 폭스의 Voice를 선택하여, 임의의 문장(Hello, I am Shana. I love the movie Transformer series. How about you?) 을 발화하게 해 보았습니다.

output (2).wav

그래도 영어는 나쁘지 않은 것 같습니다.


이 모델은 언어 지원이 많이 되지 않아 좀 아쉽네요.

하지만 Eleven Labs나 Open AI의 모델을 보면,

Voice Cloning은 윤리 이슈이지, 기술적으로는 높은 완성도에 이른 것 같습니다.


다음에는 Space에서 더 다양한 Application을 살펴 보겠습니다. 😀


#11기HuggingFace #11기허깅페이스

5
2개의 답글

👉 이 게시글도 읽어보세요