[ 17기 n8n 실전예제 ] 사진인식후 텍스트추출 및 음성파일 제공하는 텔레그램봇 완성

소개

일본어 초보자일수록 단어 하나, 짧은 문장 하나 말하고 싶은 순간이 많죠. 그런데 막상 입 밖으로 꺼내려면... 어렵습니다 😥 번역기 켜고 타이핑하고, 듣고… 귀찮기도 하고요.

그래서! 📷 사진을 찍어 넘기면, 일본어 텍스트를 자동으로 추출하고, 그걸 제 텔레그램 봇이 받아서 🎧 음성 파일로 들려주는 시스템을 만들어보기로 했어요.

“이거 되면 진짜 학습 꿀템 아닐까?” 하는 마음으로요 😎

처음엔 딱! 사진을 텍스트로 추출하는 OCR 단계에서부터 막혔어요. 제대로 인식이 안 되기도 하고, 추출된 결과도 불안정했죠.

다행히 텔레그램 방에 텍스트 전달은 잘 되더라고요. “오, 반쯤은 성공했나?” 싶었죠.

하지만… 그다음 단계인 음성변환(TTS) 에서 또 벽에 부딪혔습니다. 😵‍💫

스터디장님들께 조언도 구하고, 여러 시행착오도 겪어가며 문제의 원인을 하나씩 찾아갔어요. (🙇‍♀️ 멍멍_ 스터디장님, 김혜미 스터디장님 감사합니다!)

텔레그램에 보내는 텍스트에 한글과 일본어가 섞이면, Google TTS에서 음성이 이상하거나 처리 실패했어요. User Prompt 가 너무 예쁘게 기능을 한 덕분이죠 ㅠㅠ
n8n에서 자동으로 붙는 꼬리말(“This workflow was created with n8n”) 도 텍스트로 함께 들어가서 품질을 떨어뜨림 😬