7기부터 숙원 과제였던 CS 비정형 데이터 전처리…
https://www.gpters.org/data-science/post/-v48D1rElFN9dTRW
이번에 다시 도전했습니다!!
결과는 느낌적 느낌으로 대충 70% 정도 전처리가 되었습니다만, 개인정보 및 회사 정보가 포함된 데이터들이라, 실제 완성된 버전이 아닌 과정만 구현한 것을 살짝 보여드립니다(ㅠㅠ)
https://chat.openai.com/share/b4c2d40e-9ce0-46df-b430-1da5ba7550e1
주요 과정)
1) Persona Pattern 주기(안 틀리도록)
2) Persona의 Recipe Pattern 활용해보면서 마음에 안들면 Few shot 추가하여 전처리 규칙 주기
3) Template Pattern으로 전처리한 결과값을 csv에 입력해달라고 요청하기
위의 링크에서는 원본 데이터를 다 넣고, 태그 리스트를 만드는 과정을 생략했습니다만, whisper AI(STT)로 대략적인 원본 음성들을 다 추출한 뒤, 콜 당 내용들만 분리한 상태로 GPT에 넣어 태그 추출을 부탁했습니다.
제가 생각한 것과 거의 비슷했지만, 특수한 문제해결을 위해 약간만 손을 봐줬고, 학습을 위해 Few shot prompt를 추가하였습니다.
그랬더니 새로운 칼럼에 대략적인 전처리가 완성되었습니다!
7기 과정 + 8기 과정을 조합하느라 시간이 조금 걸렸는데, 회사 데이터라 아주 일부분만 공개 가능한 것이 아쉽네요 ㅠㅠ