Cursor를 활용하여 TTS (Text to Speech)로 음성재생 기능 만들어 보기 (왕초보)

소개

  • edge-tts를 활용해 텍스트를 음성으로 변환하는 프로그램을 만들고자 했습니다. 이를 통해 한글, 영어, 중국어를 포함한 여러 언어의 음성을 품질 좋게 재생할 수 있기를 바랐습니다.

  • 최종적으로는 파일을 생성하지 않고 실시간 재생하며, 재생 속도를 조정해 사용자의 듣기 능력을 향상시킬 수 있는 학습 도구를 완성하는 것이 목표였습니다.

진행 방법

  • 사용 도구:

    1. Python, Cursor를 처음 설치했습니다.

python3 python3 python3 python3 python3
  1. edge-tts: 텍스트를 음성으로 변환하기 위한 주요 라이브러리로 선택했습니다. 이 라이브러리는 한국어, 영어, 중국어 등 다양한 언어의 발음 품질이 높다고 평가받고 있습니다.

  2. Cursor: 코드 작성 및 디버깅 도구로 활용했습니다. 문제가 생길 때 로그를 추가하거나 오류 현상을 설명하며 수정 방법을 요청했습니다.

채팅 작성기 - 스크린샷
  1. Claude: 문제를 설명하고, 수정 방향에 대한 피드백을 받기 위해 사용했습니다.


  • 진행 과정:

    1. 샘플화면 제공 : 샘플화면을 제공하고, 목적에 맞는 코드를 요청함

한국 앱 스크린샷
  1. 기본 프로그램 구현: 텍스트를 입력하면 edge-tts를 사용해 음성을 생성하고 wave 파일로 저장해 재생하도록 코드를 요청했습니다.

  2. Wave파일로 요청 : 초기 wave 파일로 재생요청했지만, Cursor는 mp3로 바로 재생하는 방법을 추천했습니다.이 과정에서 Cursor와 Claude에게 질문하며 해결 방향을 모색했습니다. 

wave파일로 생성하는 것을 성공하신 분의 소스를 cursor의 CHAT창에 제공하며 재생기능을 요청하는 시도를 했습니다.

한국어 텍스트가 적힌 컴퓨터의 스크린샷
  1. Temp 파일 문제 : 바로 재생이 되도록 요청했지만, temp 파일이 계속 쌓이는 문제가 발견되었습니다. 이를 해결하기 위해 삭제 코드를 추가하거나, 파일을 생성하지 않고 바로 재생하는 방법을 모색 중입니다.

  2. 재생을 조정하는 버튼 추가 : 재생, 일시중지, 중지 등의 버튼 추가, 기능을 구현하는 등 화면 Control기능도 추가하였습니다.


  • 결과 : 재생 Play 대상 선택, 재생속도 지정 등 기능 추가가

한국어로 지금 몇 시야?



결과와 배운 점

  • 성과:

    • 여러 언어를 품질 높은 음성으로 변환할 수 있는 프로그램을 구현했습니다.

    • 재생 속도를 조정하여 학습 목적으로 활용할 수 있는 기능을 추가할 가능성을 발견했습니다.

  • 시행착오:

    • wave 파일 형식으로 음성 재생 요청하였으나, 문제가 지속되었습니다..

  • 앞으로의 계획:

    • 파일을 생성하지 않고 음성을 실시간으로 재생할 수 있는 코드를 완성할 예정입니다.

4
2개의 답글

👉 이 게시글도 읽어보세요