Human-in-the-loop 텍스트 추출 Skill 제작기

소개

  • 업무에서 이미지/PDF/음성 데이터로부터 텍스트 추출할 일이 있는데, API 하나만 쓰면 오류가 너무 많음 -> 사람이 다시 읽거나 LLM 검수를 한 번 더 돌려야 하는 번거로움이 발생

  • 그래서 skill 제작을 통해 이 과정을 자동화함

  • 데이터 폴더 경로만 던지면, 2개 이상의 API로 같은 파일을 추출하고, 결과가 유의미하게 다를 때만 사람한테 넘김 (검수 필요한 항목은 한꺼번에 모아서 review.html 하나로 반환 — 원본이랑 두 결과 나란히 보면서 맞는 거 고르면 파일로 저장됨)

  • 결과: 텍스트 추출 오류가 섞인 데이터를 놓치는 일 줄고, 사람이 개입할 타이밍이 명확해짐

진행 방법

사용 도구

도구

용도

Claude Code

전 과정 오케스트레이션

Claude 비전 (멀티모달)

이미지 OCR 엔진 #1

Upstage Document OCR API

이미지 OCR 엔진 #2

Claude Code 내장 Read 도구

PDF 텍스트 추출 엔진 #1

Upstage Document Parsing API

PDF 텍스트 추출 엔진 #2

OpenAI Whisper

오디오 STT 엔진

진행 과정

  1. 데이터가 저장된 폴더 경로 제공

    1. 이미지, 오디오 등 다른 유형의 데이터가 한 폴더에 저장되어 있어도 상관 무!

    2. Claude Code가 자동으로 유형에 따른 API를 사용함

  2. 사전에 사람이 지정해둔 여러 API로 텍스트 추출 및 리뷰 대상 검토

    1. 이미지의 경우

      • 1차 추출 — Claude Vision (내장 멀티모달)

      • 2차 추출 — Upstage Document OCR API

    2. 두 결과를 대조한 뒤 의미 있는 차이가 없으면 자동 확정, 숫자나 단어가 다르면 리뷰 대상에 추가

  3. review 페이지 생성

    1. 합의된 결과 → 기본 접힘 상태로 표시

    2. 불일치 결과 → 원본 이미지 미리보기 + 엔진 A vs 엔진 B 나란히 비교 + 직접 수정 입력칸

    3. 수정 완료 시 Save 버튼 → .txt 파일로 다운로드

사용 예시

  • (데이터 예시는 웹에 오픈된 예시로 대체)

  • 예시 이미지를 보면 구조가 복잡하여 단일 ocr api로는 정확한 텍스트 추출이 어려움

  • 2개 API 결과의 유의미한 불일치를 통해 리뷰 검토 대상에 포함되었으며, 이렇게 필터링된 데이터에 대해서만 사람이 실제로 확인 후 직접 텍스트를 입력하고 저장함으로써 텍스트 추출의 정확도는 높이고 시간은 단축할 수 있음

htc htc htc htc htc htc htc h
한국어 페이지 스크린샷

결과와 배운 점

  • 사용할 API를 사전에 지정해주면 최종적으로 더 정확한 결과를 만들 수 있음

    • Claude가 알아서 지정하는 API들의 경우 한국어 성능이 좋지 않음 -> Upstage API를 사용하라고 추가 지시

2

뉴스레터 무료 구독

👉 이 게시글도 읽어보세요