[7기: 사업기획] GPT 활용 기준 데이터 만들기


[자기소개]

안녕하세요, 이번 7기로 참가한 남환우 입니다. 공공기관에서 데이터분석 업무를 담당하고 있습니다.


[추진배경]

주로 무역 관련 데이터를 분석하고 있는데, 저의 Pain Point는 품목명으로 들어오는 텍스트 데이터를 코드화 하는 문제 입니다. 전세계 해외바이어의 데이터를 수집할 때 품목정보를 텍스트로 입력받고 있어 효율성이 떨어지는 문제를 어떻게 코드로 입력 받아 활용할 수 있을지가 제가 해결해야 하는 ‘문제’ 입니다.


[배경지식]

한국은 MTI 라는 품목분류코드를 사용하고 있으며 MTI 6자리 기준 품목수는 총 1,500개 정도입니다. MTI 품목데이터는 첨부와 같이 구성되어 있습니다.


[문제해결 과정]

ChatGPT를 활용해서 MTI 영문 대표품목명 (예: rice) 에 대해 무역거래 관점의 동의어를 다수 생성하고 이를 원래 파일 옆의 컬럼에 부가하는 방식으로 동의어 사전 구축을 기획했습니다. 지금부터는 ChatGPT 를 활용한 문제해결 과정을 설명하겠습니다.


[ChatGPT 활용]

  1. 가능성 확인

일단 가능성은 확인했습니다.


  1. 본격 추진을 위한 ADA 사용



보다 정확성을 높이기 위해 영문 대표품목명을 제시하고 동의어를 얻어 해당 단어를 한국어로 번역하는 절차를 선택했습니다.

전체적인 프롬프트를 먼저 제시하고 이후에는 영어 품목명만 제시하면 동의어 생성, 한국어 번역, 데이터 프레임 생성, 기존 데이터 프레임에 부가하는 작업을 별도 설명 없이 진행했습니다. 그리고 필요할 경우 해당 파일을 바로 엑셀로 다운로드 받을 수 있도록 했습니다.




[결과]

이렇게 전체 1,500 개 품목에 대해서 작업을 진행했으며 그 결과 아래와 같이 내가 원하는 동의어 사전을 구축할 수 있었습니다.


저는 처음에 이런 동의어 사전이 있다면 어느 정도 회사 예산을 사용해서 해당 데이터를 확보하고자 하는 마음이 있었습니다. (저의 Pain Point 였습니다…) 물론 해당 동의어 사전이 완벽하지는 않지만 제가 원하는 다음 단계로 넘어가는 데 충분한 수준은 될 것 같습니다.


[한계 및 보완점]

시간문제였습니다. 1,500개를 한 번에 올리고 한 번에 얻을 수 있다면 더할나위 없이 좋았겠지만, 그렇게 되지는 않았습니다. 회사 인턴의 도움을 받아 1주일 정도 시간을 두고 진행했습니다. 아직 노코드 툴에 대한 지식이 없어 생산성이 높지는 않았지만 재피어 같은 툴의 도움을 받으면 훨씬 시간을 절약할 수 있을 것 같습니다.

감사합니다.



4
2개의 답글

👉 이 게시글도 읽어보세요