소개
n8n을 배우며 단순한 실습을 넘어 실제 업무/생활에 적용해보자는 목표를 세웠습니다. 특히 매일 꾸준히 하고자 했던 일본어 교과서 공부 루틴에 자동화를 접목하고자 했어요.
호기롭게 출발했던, 이미지 추출의 벽에 막혀 고통속에 몸부림 친 몇 날 몇 일의 분투기입니다.
진행 방법
전체 워크플로우 구조
Telegram Bot
사용자가 일본어 교과서 사진을 전송하면 n8n에서 이를 수신합니다.
HTTP Request (file id )
수신한 file id 를 추출합니다.
HTTP Request (실제 이미지 다운로드)
file id 는 일종의 이미지에 대한 송장정보일 뿐입니다.
이 송장정보를 들고 실제 물류센터에서 내가 보낸 사진이미지를 다운로드 받습니다.
Code1 (image/jpeg 라벨링)
open ai 의 Analyze image가 명확히(?) 알수있게 이미지를 라벨링해줍니다.
code 단계가 필요없다 판단했는데.. 그놈의 mime 에러발생으로 부득이하게 추가
Basic LLM Chain (추출된 이미지 텍스트 자료 가공)
어학에 특화된 클르도 모델을 장착, 추출된 이미지를 텍스트로 정리
비유로 정리해보면,
텔레그램방에 택배보내기(사진) - 송장정보 전달 - 실제택배 수령 - 라벨링후 - 택배열기(추출)
입니다.
사용 도구
n8n: 업무 자동화의 핵심 툴. 워크플로우 설계에 사용.
Telegram Bot: 입력 채널. 이미지를 수신.
Analyze Image : 대량의 작업은 구글 vision 이, 맥락작업은 open ai Analyze image가.
Claude: LLM 모델로 선택. 문장 해석 및 문법 설명 생성.
결과와 배운 점
시행착오
JSON 자료 형식을 이해하고 에러 잡는데 시간이 꽤 걸렸습니다.
모든 input 과 output 은 json 으로 통한다.
배운 점 & 팁
Input Output : $json~~ , 이 말이 뭔가 했었는데.. 이전 input 값이 json 형태로 받는다는거.
멍멍_ 방장님 조언과 허세임 방장님 workshop 도 도움이 많이 되었습니다.
오, 너무 괴로웠습니다.
자동화 하지 말고, 그냥 책으로 공부할 걸 그랬나?... 그래도 포기하지 않고
워크플로우가 좀 번거로워졌지만 chat gpt, 제미나이 붙잡고 매달려 겨우 성공했네요.
앞으로의 계획
추출된 텍스트를 좀 더 실용적이고 활용가능한 프롬프트로 만들어보기
LLM 응답 결과를 음성으로 변환하여
TTS 파일로 저장해 듣기 연습에도 활용하고 싶어요
도움 받은 글
올마이티 방장님의 텔레그램방에서 명함 이미지 넣고 추출하는 글
https://www.gpters.org/nocode/post/create-web-app-automation-o2K7RS0Jujp5nCM