영수증 OCR -> 엑셀 자료 뽑다 열받은 사례

많은 영수증 처리 방법을 고민하다가 유니님의 사례를 따라 해보기로 시도

많은 영수증 처리 방법을 고민하다가 유니님의 사례를 따라 해보기로 시도.

목적은 개인가계부이나 영수증의 모든 자료를 버리지 않고 증빙, 일기, 정보찾기 용으로 두루 사용할 목적으로 영수증에 기재된 모든 정보 수집하여 데이타베이스화하는 것.

이 수업은 GPT 업무도우미인데, 나에겐 OCR 다량 정보인식이 아주 부족한 GPT에 불만,

다른 AI도 사용하여 비교분석한 내용을 올립니다.

결과

ChatGPT, Gemini, Perplexity, Genspark 중

숫자, 한글 할루시네이션 없는 Perplexity 가 압도적 품질,

많은 양을 한꺼번에 처리하기 위해서 Genspark -> AI 시트 -> 검증의 시간이 필요함

영수증의 종류 : 30가지 (병원, 약국, 백화점, 식당, 커피전문점, 버스티켓, 기차표, 옷가게 등등)

배운 점 : OCR은 정보가 정확하게 텍스트 화 되었는지 확인해야 한다는 점입니다. 최초 자료가 엉터리면 다른 정보들도 다 거짓이 되기 떄문입니다.

Chat GPT

프롬프트

  1. 유니님과 같은 문구

    GPTs를 만들고 싶어요. 내가 가진 영수증을 핸드폰으로 찍어서 넣으면 내용을 엑셀파일로 정리해주면 좋겠어. 그걸 위해 어떤 작업을 해야할지 어떤 정보를 수집해야할지 모르겠어. 알려줘

    -> 답변

    화면의 한국어 목록
  2. 해야할일 요청 : 최종적으로 3단계에서 멈춤

3. 종류가 다른 영수증 30개 준비 - 10개까지 가능해서 업로드

  1. 위에 첨부한 그림파일을 OCR하여 아래의 정보대로 표로 만들어줘 1. 가게명 / 사업자번호 / 전화번호 / 주소 2. 거래일시 3. 품목 리스트 : 품목명, 수량, 단가, 금액 4. 총액, 부가세, 면세물품, 할인, 결제수단, 카드번호, 승인번호, 할부개월, 카드명, 매입사명, 가맹번호 5. 회원정보, 추가점수(금회적립포인트), 누적점수(가용포인트), 바코드, 고객, 적립포인트,현금영수증 승인번호, 식별번호, 주문번호 와이파이 비번(Wifi) 6. 차량번호, 탑승시간(승하차시간), 승차/기타, 운전자자격번호, 결제기번호,고객센터 7. 출발일, 출발시각, 좌석, 승차홈, 버스회사, 출발지역, 도착지역

  2. OCR 분석표 내놓음 (파이썬으로 분석 후)

    이름과 숫자 목록의 스크린 샷
  3. 한장씩 올려서 분석하게 함

    • 메타정보와 상품품목을 다른 시트로 추출 -> 통합요청,

    • 헤더수정 및 추가요청사항까지 9번의 수정을 통해 자료 나옴

  4. 2 장씩 올려서 분석하게 함. -> 미리 요약정보를 요청하고 정정부분을 고쳐서 엑셀로 추출

  5. 4 장씩 올려서 분석하게 함 -> 불완전한 정보 각각 수정

  6. 10 장을 올려서 분석하게 함 -> 영수증 순서 마음대로, 내용도 거짓으로 추출, 숫자와 문자구분 못함 -> 엄청난 에러로 다른 AI 분석시도

Gemini

  1. 프롬프트

    영수증 사진을 10장 업로드할테니 텍스트 추출하여 표로 만들어줘.

    첨부한 것이 영수증 사진입니다. 이것으로 테스트 부탁드립니다. API KEY는 xxxxx (가이드에 따라)

  2. 결과 : 엑셀파일을 얻기 위해서 파이썬 환경 준비가 필요하다. -> 진행못함 (검증 못함)

Perplexity

  1. 프롬프트 (테스트 1장)


    이 영수증에 대한 모든 정보를 분석해서 엑셀파일로 만들어줘. 일시, 가게명, 사업자등록번호, 주소, 전화번호, 점원명, 결제수단, 카드번호, 할부개월, 카드사, 승인번호, 매입사명, 가명번호, 품목, 수량, 단가, 금액, 회원할인, 과세금액, 부가세,총금액 포함하여 읽을 수 있는 모든 문자를 텍스트화하여 영수증과 같은 모양으로 만들어줘. 헤더는 가로로, 데이터를 세로로 누적될 수 있도록 작성해주고, 품목별로 라인을 추가하여 작성해줘

  2. 결과 1 - 영수증 분석

한국어 테스트의 스크린 샷
한국 텍스트가있는 페이지의 스크린 샷

  1. 결과 2 - python 코드생성 -> 실행하지 못함 -> 엑셀 미리보기를 긁어서 엑셀에 붙임 (가능)

  1. 결과 3 - GPT에 비해 정확한 한글, 숫자인식, 형식이 다른 영수증에서 사업자번호, 주소, 대표자명, 전화번호, 과세금액, 부가세, 총금액, 승인번호, 거래번호 등등 모든 자료를 빨리 데이타화하는 정확성. -> 만족스러운 결과, 보정한 경우 없음

    Genspark AI 시트

장점 : 종류마다 다른 영수증의 정보를 정확하게 가져옵니다. 예를 들면 아래와 같이.

  • 사업자등록번호 : 영수증마다 ###-##-#####, 또는 ##########(10자리), 사업자번호, 위치가 다른 곳에 배치 등 모두 인식

  • 전화번호 : 전화번호, Tel, T, ##-####-####, #########(9자리 또는 10자리), 010-####-##### 모두

단점 : 무료버전은 한달 토큰이 100, 유료전환하여 써야 한다는 점.

  1. 프롬프트

  1. 답변 - 하기와 같은 답변과 함께

==================================================

개인 지출 관리를 위한 데이터 구성

식당, 마트, 카드 영수증을 효과적으로 관리하기 위한 스프레드시트 구성을 제안합니다:

기본 데이터 열

  • 날짜

  • 시간

  • 상점/식당명

  • 결제 금액 (총액)

  • 결제 방법 (현금/카드/기타)

  • 영수증 유형 (식당/마트/기타)

부가 데이터 열

  • 품목별 세부 내역 (가능한 경우)

  • 카테고리 (식비, 생활용품, 교통비 등)

  • 월별 합계

  • 비고/메모

영수증 20장 처리 과정

  1. 준비 단계:

    • 영수증을 날짜 순서대로 정리

    • 각 영수증 이미지가 선명하고 텍스트가 잘 보이도록 확인

    • 필요하다면 영수증 별로 간단한 메모 (예: "5월 식비", "주간 장보기") 준비

  2. 처리 단계:

    • 영수증 이미지를 한 장씩 업로드

    • 각 영수증 정보 분석 및 저장

    • 불명확한 정보가 있을 경우 확인 후 보완

  3. 데이터 정리 단계:

    • 모든 영수증 정보를 통합하여 스프레드시트 생성

    • 날짜순 또는 카테고리별 정렬

    • 월별/카테고리별 합계 계산

개인 지출 관리를 위한 데이터 활용 방안

수집된 영수증 데이터를 바탕으로 다음과 같은 개인 지출 관리가 가능합니다:

  1. 월별 지출 추이 분석:

    • 식비, 생필품 등 카테고리별 지출 비교

    • 월간 총지출 변화 추적

  2. 지출 패턴 파악:

    • 자주 방문하는 상점/식당 확인

    • 시간대별/요일별 지출 패턴 확인

  3. 예산 계획 수립:

    • 과도한 지출 분야 파악

    • 향후 예산 계획에 반영

=========================================================

  1. 영수증첨부 20장 후 소비패턴 분석

  1. 소비패턴이나 분석방법들은 필요없으므로 pass / 헤더 정보 수집으로 엑셀표를 만들기위한 사전작업요청

헤더 설정을 위해서 영수증의 모든 헤더들을 추출해줘.

  1. 헤더추출 결과 - 모든 헤더 목록 추출 (만족스러움)

    영수증 헤더 목록

    기본 거래 정보 헤더

    • 날짜 / 일자

    • 시간

    • 영수증 번호 / 주문번호

    • 거래일시

    • 거래유형

    • 매장명 / 상점명

    • POS 번호 / 단말기 번호

    상점 정보 헤더

    • 상호 / 가맹점명

    • 사업자등록번호 / 사업자번호

    • 대표자명

    • 주소

    • 전화번호 / Tel

    • 영업점번호 / 가맹점 번호

    상품 정보 헤더

    • 상품명 / 품명

    • 단가

    • 수량

    • 금액

    • 합계

    • 할인금액

    • 적립포인트

    결제 정보 헤더

    • 과세물품가액

    • 부가세

    • 과세합계

    • 면세물품가액

    • 총 금액 / 결제금액 / 합계

    • 받은금액

    • 거스름돈

    카드 결제 관련 헤더

    • 카드종류 / 카드명

    • 카드번호

    • 결제방법

    • 승인번호

    • 승인일시

    • 할부개월

    • 매입사명 / 매입사

    • 발급사

    • 카드사 / 카드회사

    • 청구금액

    기타 정보 헤더

    • 적립포인트

    • 회원번호

    • 적립금

    • 할인쿠폰

    • 회원할인

    • 적립정보

    • 포인트 정보

    세금 관련 헤더

    • 과세금액

    • 면세금액

    • VAT (부가가치세)

    • 세금계산서 발행 정보

    특수 헤더 (특정 상점 유형별)

    편의점/마트 영수증 헤더

    • 점장명

    • 품목수

    • 바코드번호

    • 상품코드

    • 배송 정보

    음식점 영수증 헤더

    • 테이블 번호

    • 주문 시간

    • 주문 메뉴

    • 배달 정보

    • 포장 여부

    의료기관 영수증 헤더

    • 환자명

    • 진료과목

    • 진료비 구분

    • 처방전 번호

    추가 정보 섹션 헤더

    • 신용승인정보

    • 회원정보

    • 교환/반품 안내

    • 환불정책

    • 적립 안내

    • 이벤트 안내

    • 유효기간 안내

도움 받은 글 (옵션)

https://www.gpters.org/chatbot/post/receipt-ocr-webhook-slash-4PRocpkn0wkLuCO

3
3개의 답글

👉 이 게시글도 읽어보세요