이번주는 허깅페이스를 둘러보는 시간을 가졌습니다.
음성인식하면 텍스트로 대답해주는 챗봇을 만들어보고 싶어서요.
2개정도로 간추려보았습니다.
1번째는 여러 언어를 지원하는 모델 같아요.
2번째는 openai 에서 올린 모델 같아요.
깃허브를 들어가보았습니다.
이제 보니 두사이트 모두 같은 곳에서 만든 것 같네요. 시간차이가 있을 뿐. 더 살펴봐야겠습니다.
문서를 며칠 보았으나 머리에 잘 들어오지 않아 일단 실행해보기로했습니다.
setup을 순서대로 하고
샘플로 audio.mp3 를 만들어서 돌렸습니다.
반납이어야 하는데..
반갑으로 되네요.
오늘은 간단하게 모델을 선택해서 실습을 해보았습니다.
문서를 이해하는데 어려워서 chatgpt에 물어보았습니다.
요약:
Whisper 모델은 여러 크기와 언어 지원으로 제공되며, 성능과 속도의 균형을 제공합니다. 영어 전용과 다국어 버전이 있으며, 모델 크기에 따라 필요한 VRAM과 처리 속도가 다릅니다. 예를 들어, 'tiny' 모델은 약 1GB VRAM이 필요하며 'large' 모델보다 약 32배 빠릅니다. 언어별 성능은 다르며, 영어 전용 모델은 일반적으로 더 나은 성능을 보입니다.
그래프 설명:
이 그래프는 Whisper 음성 인식 모델의 언어별 성능을 보여줍니다. 오른쪽은 Common Voice 15 데이터셋, 왼쪽은 FLEURS 데이터셋에 대 한 것입니다. 각각 large-v3 및 large-v2 모델의 단어 오류율(WER) 또는 글자 오류율(CER, 이탤릭체로 표시)을 나타냅니다. WER나 CER가 낮을수록 성능이 좋음을 의미합니다. Dutch, Spanish, Korean 같은 언어는 상대적으로 낮은 오류율을 보이며, 성능이 뛰어난 것을 알 수 있습니다. 반면, Albanian, Tamil, Swahili 같은 언어는 높은 오류율을 보여 성능이 상대적으로 낮습니다.
이렇게 알려줍니다. 다음에는 코랩으로 실습을 하고, 문서 내용을 정리해보아야겠습니다.
#10기 HuggingFace 허깅페이스