대법원 파산자공매 매각정보 자동분석 및 분류하기(최종)

배경 및 목적

  1. 대법원 파산자공매 매각정보 자동분석 및 분류하기

  1. 대법원 파산자공매 매각정보 자동분석 및 분류하기(2)

이전 글에 연속하여 최종 글을 올려봅니다.

Make 와 LLM 을 통해 만들어 내고자 했던 전체 그림은 다음과 같습니다.

  1. 대법원 회생/파산자 재산 공매 공고를 간편하게 검색할 수 있도록 하자.

    • 파산관재인 변호사들이 제각각의 양식으로 올리는 공고문을 정형화된 데이터로 DB 화

    • 지역/날짜/종류 별로 검색 가능

    • 데이터가 정형화 되면 관련 데이터와의 접목으로 특화 서비스를 만들 수 있음

  2. LLM 사용에 있어 기존 서비스(Front/back-end) 에 burden 이 없도록 하자.

    • 2M~8M 미만의 첨부파일 분석으로 기존 서비스에 영향 최소화

그리하여 'Make로 공고문 파일 분석 자동화 만들기' 라는 여정이 시작되었습니다.

참고 자료

https://www.youtube.com/@sihyun_adventure

이번 스터디에 참여하면서 Make 도 처음 사용해 본 터라 위 유튜브 영상을 통해 대략의 사용법부터 익히기 시작했습니다.

Zapier 를 아~주 간단하게 써본 입장에서, Make는 학습이 꽤 필요한 도구였습니다.

해당 유튜브 영상들이 비교적 쉬운 설명과 실습으로 빠르게 필요한 부분 학습이 가능했습니다.

이번 스터디를 통해 다양한 모듈을 찾아가며 사용해 봄으로써 내가 정의한 문제를 해결하는데 어떠한 해결방법을 설계해야 할지 그림이 그려지는 느낌이었습니다.

활용 툴

  1. Make (사용 모듈)

    • MySQL

    • ConvertAPI

    • OpenAI

    • JSON Parser

  2. 크롤링 스케쥴러 (자체구현)

    • node.js/express

    • mySQL

백엔드 서비스에 기존 크롤링 API 를 구현했었기에, 대법원 파산자 공매 페이지의 list/detail 페이지의 크롤링은 직접 구현하여 DB 화 하였습니다.

크롤링 후 DB화 된 공매공고에 Make와 LLM을 활용하여 첨부파일 분석 결과를 DB 에 Merging 합니다.

실행 과정

  1. PDF 파일의 텍스트 변환

  2. LLM 활용 시 구체적인 output 데이터 구조 설계

  1. PDF 파일을 직접 LLM에 분석 요청시 어마어마한 토큰을 사용하게 됨

    • PDF 는 텍스트 변환하여 필요한 항목만 뽑아냄

  2. 변환된 텍스트로 LLM 분석

    • 필요한 정보만 구체적으로 정의

    • 정규화된 정보는 코드 정의 후 코드 매핑 (주소 내 지역코드, 부동산 종류 정보)

    • JSON 구조 설계 : DB 레이아웃 설계를 한 후 그에 맞는 JSON 구조 설계

결과 및 인사이트

  1. 파일 분석의 케이별 처리 공부가 더 필요함

    • OCR 형태 및 기타 파일 타입(HWP) 분석 처리에 대한 시도 필요

  2. API 비용을 줄이기 위한 노력

    • LLM 에 던지는 Input과 결과 format 은 필요한 값 만으로 최소화

    • 서비스 burden과 개발공수가 적다면 개발과 자동화 노코드 툴을 적절히 혼용하여 사용

  3. Make 에서 제공하는 URL 파일 다운로드의 경우 SSL 옵션(Crypto 관련 설정)을 세밀하게 할 수 없는 반면, 각 솔루션에서 제공하는 모듈의 경우는 URL 파일 관련 엑션이 원활함

아래와 같은 시나리오로 크롤링 한 공고문 테이블에 첨부파일 분석 자동화를 완성하였습니다.

이 시나리오는 크롤링 스케쥴러 작동 후 매일 자동 실행되도록 스케쥴링 하였습니다.

분석되어 DB 화된 데이터는 사용자 화면에서 지역코드 선택 후 목록 검색이 가능하게 되었습니다.

개인의 삶의 다양한 단계를 보여주는 다이어그램

4주간의 스터디 안에 결과물을 만들어 내고 다양한 경험을 해볼 수 있어 감사했습니다.

같이 고민해 주시고 다양한 솔루션을 공유해 주신 샘호프만님, 푸르공님 감사합니다!

6
2개의 답글

뉴스레터 무료 구독

👉 이 게시글도 읽어보세요