(7기)비정형 텍스트 데이터 (cs 데이터) 전처리 - 1차 시도(결과 실패)

제가 이 스터디 공고를 보면서 바로 해보고 싶은 회사에서의 프로젝트가 무수히 많은 CS 데이터의 전처리를 GPT를 활용하는 것과 내부 데이터를 GPT에게 분석을 맡겨보는 것이었습니다.

큰 이유는 아니었고, 내년도 사업계획을 짜던 도중이라 보자마자 너무 반가웠습니다 ㅎㅎ

원래는 바로 내부 데이터를쿼리에서 뽑아서 ADA 돌려보고 싶었지만,,, 회사에서 퇴짜맞아서 못해보고 CS 데이터에 대한 전처리를 먼저 해보게 되었습니다


이상적 목표는 사람처럼 CS 비정형 텍스트 데이터를 전처리(레이블링) 하는 것이지만

이 정도는 아니더라도, 유의미한 상관 관계(계수)만 찾아내도 현업에서 충분히 쓸 수 있을 것 같고

상관 관계를 찾지 못해도, 아이디어 스케치로 프로토타입을 만들 수만 있다면, 차기년도 프로젝트에 넣을 수 있을 것 같아 시도해보게 되었습니다.


일단, CS 레이블링을 현재 CS 부서에서 하고 있는 상황은 다소 아쉬웠습니다.

실제 인터뷰를 진행해보니, 카테고리를 제대로 인지하고 있지 못한 분들이 단순하게 레이블링을 하고 있음을 확인했습니다.


일단 저는 현재 카테고리의 문제점을 개선한 카테고리를 만들어 피드백을 chatGPT에게 요청해보았고, 이를 활용하였습니다.

(디테일 프롬프트 피드 : https://chat.openai.com/share/6d0bea85-137d-4ffc-94ac-720539e36b2e)


이 결과를 구글 시트에 넣었습니다. 실제로 사용하는 것은 아래 사진에서는 h열 뿐입니다



그 다음, 쿼리에서 갓 뽑아온 데이터 중, 필요없는 것들은 다 날리고 전처리를 위한 메모노트만 남겼습니다.

그리고,

  • 1) 한국어에 대한 전처리

  • 2) 구글 번역 후 전처리

  • 3) GPT 번역 후 전처리

  • 4) 직접 노가다 전처리

를 진행해보았습니다.

여기서 전처리에는 구글 시트 내 gpt 익스텐션과 gpt_classify 함수를 활용했습니다.

gpt_classify를 선택한 이유는 딱 1개로만 태그를 다는 형태의 전처리를 원했기 때문입니다.

그냥 gpt 함수로는 “Answer : ~~” 과 같은 말이 계속 나오거나, 선택을 두 개를 하더라고요(gpt_match 느낌)

그렇게 전처리를 한 1,2,3과 제 답과 비교해서 어디가 가장 높은 정답률을 기록하는지 체크를 해봤습니다!


만,,, 제가 깜빡하고 퇴근하면서 지피티 옵션을 켜놓고 나가서,,,

급하게 글 쓸 때까지는 복원이 되지 않네요 ㅠㅠ

결과만 말씀드리자면 결과는 엉망이었습니다. (비교가 처참할 정도. 각 정답률 30% 이하)


이후 하려고 하는 것은

메모 자체가 제대로 적혀있지 않다보니 제대로 전처리를 할 수 없다는 생각이 들어서 CS 음성 상담 원본 데이터를 샘플로 몇 개 가져와서 STT하고, GPT로 요약한 후 다시 전처리를 해보려는 구상을 하고 있습니다.

힘든 몇 가지 과정을 거쳐야 지난 번 배운 ADA와 같은 기능들을 테스트해볼 수 있을텐데… ㅠㅠ




1
3개의 답글

👉 이 게시글도 읽어보세요