#9기임팩트 #AI임팩트
안녕하세요 AI 임팩트에서 데이터 분석 파트 글 작성하는 샘호트만 입니다.
이전 글에서는 정형데이터 관련해서 고객 세그먼트 나누는 방법을 소개해드렸습니다.
때 마침 @김욱영 님이 “비정형 데이터는 경험상으로 GPT를 이용하여 비정형 → 정형화를 거치는 것이 좋더라고요! 어떻게 활용할지 궁금합니다 ㅎㅎ” 라고 말씀주셨는데요.
언급한대로 텍스트를 정형화해야 우리가 아는 여러 텍스트마이닝 기법이나 자연어처리 기법이 가능합니다. 최소 Tabular Data 형태로 만들어야 TF-IDF로 만들어야 조금이나마 텍스트 분석이 가능합니다.
전세계 데이터 8~9할이 비정형데이터이고 노이즈가 엄청 많아서 핸들링하기 극악인 것은 자명합니다. 필드에서도 비정형 데이터를 정형화하는 것이 언어모델 만드는 것 보다 난이도 극악이라 생각합니다. (물론 데이터 만들고 구하는게 제일 어렵습니다.)
그래도 안되면 되게 해봐야죠. ChatGPT ADA 위에서 정형화 하는 것을 한번 테스트 해보고자 합니다. 그럼 시작해보겠습니다.