소개
일본어 초보자일수록 단어 하나, 짧은 문장 하나 말하고 싶은 순간이 많죠. 그런데 막상 입 밖으로 꺼내려면... 어렵습니다 😥 번역기 켜고 타이핑하고, 듣고… 귀찮기도 하고요.
그래서! 📷 사진을 찍어 넘기면, 일본어 텍스트를 자동으로 추출하고, 그걸 제 텔레그램 봇이 받아서 🎧 음성 파일로 들려주는 시스템을 만들어보기로 했어요.
“이거 되면 진짜 학습 꿀템 아닐까?” 하는 마음으로요 😎
진행 방법
처음엔 딱! 사진을 텍스트로 추출하는 OCR 단계에서부터 막혔어요. 제대로 인식이 안 되기도 하고, 추출된 결과도 불안정했죠.
🔗 관련 참고 링크:
https://www.gpters.org/nocode/post/create-telegram-bot-connect-p5mG2czs3WUsZAu
다행히 텔레그램 방에 텍스트 전달은 잘 되더라고요. “오, 반쯤은 성공했나?” 싶었죠.
하지만… 그다음 단계인 음성변환(TTS) 에서 또 벽에 부딪혔습니다. 😵💫
스터디장님들께 조언도 구하고, 여러 시행착오도 겪어가며 문제의 원인을 하나씩 찾아갔어요. (🙇 ♀️ 멍멍_ 스터디장님, 김혜미 스터디장님 감사합니다!)
시행착오들 요약!
텔레그램에 보내는 텍스트에 한글과 일본어가 섞이면, Google TTS에서 음성이 이상하거나 처리 실패했어요. User Prompt 가 너무 예쁘게 기능을 한 덕분이죠 ㅠㅠ
n8n에서 자동으로 붙는 꼬리말(“This workflow was created with n8n”) 도 텍스트로 함께 들어가서 품질을 떨어뜨림 😬
그래서...
일본어만 추출하는 버전을 별도로 만들고 (user prompt 를 일본어로만 나오게)
n8n의 텔레그램 메시지 노드에서
append n8n attribution옵션을 false로 꺼서 꼬리표 제거 🎯
사용한 도구
🛠️ n8n – 워크플로 자동화
💬 Telegram 봇
🧠 GPT API (처리 및 응답 포맷팅)
🗣️ Google TTS (초기 시도)
🎙️ OpenAI TTS (최종 선택)
결과와 배운 점
위 사진 찍어서 텔레그램봇에 주면..최종 결과는 정갈한 일본어 텍스트와 음성파일이 짜잔~
Google TTS는 초반에 “한일혼합 텍스트”에서 음성 처리가 잘 안 돼서 애를 먹었어요 😖
반면 OpenAI TTS는 유연하게 작동하고, 구현도 꽤 쉬워서 만족!
자동화 시스템은 단계 별로 잘게 쪼개서 도전해야 진짜 완성까지 갈 수 있다는 걸 뼈저리게 느낌
🧠 핵심 교훈:
"너무 큰 그림부터 보지 말고, 하나씩 기능 단위로 완성해나가자!"
이 프로젝트는 아직도 조금씩 진화 중이에요. 다음은 진짜 자연스러운 음성 합성 품질을 위해 사용자 맞춤 피드백 기능도 넣어볼까 싶어요 💡
참고사례
https://www.gpters.org/research/post/install-google-speech-node-g4rMGXQ7VquOwfJ