에이전트 / 노코드 자동화

한 달 전·에이전트 / 노코드 자동화에 게시됨

Human-in-the-loop 텍스트 추출 Skill 제작기

소개

업무에서 이미지/PDF/음성 데이터로부터 텍스트 추출할 일이 있는데, API 하나만 쓰면 오류가 너무 많음 -> 사람이 다시 읽거나 LLM 검수를 한 번 더 돌려야 하는 번거로움이 발생
그래서 skill 제작을 통해 이 과정을 자동화함
데이터 폴더 경로만 던지면, 2개 이상의 API로 같은 파일을 추출하고, 결과가 유의미하게 다를 때만 사람한테 넘김 (검수 필요한 항목은 한꺼번에 모아서 review.html 하나로 반환 — 원본이랑 두 결과 나란히 보면서 맞는 거 고르면 파일로 저장됨)
결과: 텍스트 추출 오류가 섞인 데이터를 놓치는 일 줄고, 사람이 개입할 타이밍이 명확해짐

진행 방법

사용 도구

도구

용도

Claude Code

전 과정 오케스트레이션

Claude 비전 (멀티모달)

이미지 OCR 엔진 #1

Upstage Document OCR API

이미지 OCR 엔진 #2

Claude Code 내장 Read 도구

PDF 텍스트 추출 엔진 #1

Upstage Document Parsing API

PDF 텍스트 추출 엔진 #2

OpenAI Whisper

오디오 STT 엔진

진행 과정

데이터가 저장된 폴더 경로 제공
1. 이미지, 오디오 등 다른 유형의 데이터가 한 폴더에 저장되어 있어도 상관 무!
2. Claude Code가 자동으로 유형에 따른 API를 사용함
사전에 사람이 지정해둔 여러 API로 텍스트 추출 및 리뷰 대상 검토
1. 이미지의 경우
  - 1차 추출 — Claude Vision (내장 멀티모달)
  - 2차 추출 — Upstage Document OCR API
2. 두 결과를 대조한 뒤 의미 있는 차이가 없으면 자동 확정, 숫자나 단어가 다르면 리뷰 대상에 추가
review 페이지 생성
1. 합의된 결과 → 기본 접힘 상태로 표시
2. 불일치 결과 → 원본 이미지 미리보기 + 엔진 A vs 엔진 B 나란히 비교 + 직접 수정 입력칸
3. 수정 완료 시 Save 버튼 → .txt 파일로 다운로드

사용 예시

(데이터 예시는 웹에 오픈된 예시로 대체)
예시 이미지를 보면 구조가 복잡하여 단일 ocr api로는 정확한 텍스트 추출이 어려움
2개 API 결과의 유의미한 불일치를 통해 리뷰 검토 대상에 포함되었으며, 이렇게 필터링된 데이터에 대해서만 사람이 실제로 확인 후 직접 텍스트를 입력하고 저장함으로써 텍스트 추출의 정확도는 높이고 시간은 단축할 수 있음

htc htc htc htc htc htc htc h

한국어 페이지 스크린샷

결과와 배운 점

사용할 API를 사전에 지정해주면 최종적으로 더 정확한 결과를 만들 수 있음
- Claude가 알아서 지정하는 API들의 경우 한국어 성능이 좋지 않음 -> Upstage API를 사용하라고 추가 지시

21기 AI워크스페이스

2

👉 이 게시글도 읽어보세요