- Diff-SVC란 현재 이미지 생성 모델인 Diffusion model을 활용해 ai 음성 보이스를 생성하는 모델
- AI 음성 보이스로 만든 노래 영상 (스트리머 데이터 학습)
- How? 음파 또한 이미지라는 점에서 착안, Diffusion Model에 적용
- 기존 GAN 방식보다 뛰어남 (효율 UP, 효과 UP) - 기존보다 자연스럽고, 넓은 음역대 가능
- 유튜버는 30분 분량의 음성 데이터만 활용하여 학습
생각해 볼 점
- 음성 또한 앞으로 재산권으로 보호받아야 될 것
- 성우 및 더빙 업계 지각 변동
- 보이스 피싱 등 악용 우려
가이드북
ttps://docs.google.com/document/d/1nA3PfQ-BooUpjCYErU-BHYvg2_NazAYJ0mvvmcjG40o/edit
재밌는 영상을 봐서 공유도 드릴 겸 활용 분야나 다양하게 토론해보면 좋을 것 같습니다. 🙂