[코인프 스터디][개인] 단톡방의 이야기를 텍스트마이닝 해보자

안녕하세요!

제가 운영하는 단톡방이 하나 있는데, 같은 학교, 동문들과 서로 관련 전공 관련 취업 정보, 대학원 정보도 공유하고, 가끔 뉴스, 핫딜, 청약 등등 인생살아가는데 여러 정보가 수시로 오가는 그런 성격의 단톡방입니다.

대화라는 것이 그냥 흘러가는 것이잖아요. 그런데, 그동안 쌓여있는 카톡방의 텍스트데이터들은 분석하면 어떠한 인사이트를 얻을 수 있을까? 물음이 생겼습니다.

그래서 코인프 스터디에서 배운 ChatGPT ADA와 구글코랩을 활용하여 단톡방 데이터를 기반으로 텍스트마이닝을 한번 시도해보았습니다. 부족하지만 저의 사례를 한번 공유해보도록 하겠습니다.


ChatGPT와 함께 풀어갈 숙제들은

  1. 제가 운영하는 단톡방에서 누가 가장 말이 많은가?

  2. 가장 말 많은 사람은 어떤 단어를 주로 쓰는가?

  3. 가장 말 많은 사람의 데이터의 감정은 긍정일까 부정일까?

  4. 가장 말 많은 사람의 데이터에서 추출된 주요 단어들의 네트워크는 어떤 모습일까?

  5. 가장 말 많은 사람의 데이터 상의 잠재된 주제는 무엇일까?


우선 ChatGPT에게 역할을 부여하며, 우리 한 번 잘해보자 하며, 파일을 줬습니다.


  1. 제가 운영하는 단톡방에서 누가 가장 말이 많은가?

그런데 도출된 그래프가 한글이 다 깨지더라고요. 평상시 관심있었던 파이썬 라이브러리 중 Plotly를 활용해서 그래프를 만들어서 html로 다운로드 받을 수 있게 해달라고했습니다.


이렇게 그래프를 만들어주었고.. 압도적으로 언급량이 높은 빨간색 그래프를 마주하게 됩니다.


  1. 가장 말 많은 사람은 어떤 단어를 주로 쓰는가?

가장 말 많은 사람의 데이터만 추출해달라고 ChatGPT에게 부탁을 했고

엄청 잘 추출해준 것을 확인할 수 있었습니다.

그런데, ChatGPT 안에서 한국어를 텍스트마이닝하는게 쉽지는 않았던 것 같아요.

그래서 ChatGPT에게 코랩에서 쓸 수 있는 코드를 짜달라고 부탁하고,

다른 질문들을 풀어갔습니다.


그 과정에서 만든 워드클라우드

상위 30개 단어..!

주요 단어는 이야기, 생각, 대학원, 진짜, 청소년, 사람, 경험, 연구, 정말, 우리, 상담 순..


  1. 가장 말 많은 사람의 데이터의 감정은 긍정일까 부정일까?

감정분석을 위해 사전을 하나 내려받았구(군산대학교 KNU 한국어 감성사전) 그것에 대한 경로 또한 지정해줍니다.

귀신 같이 오류를 잡아주는 GPT.. 그 결과 깔끔하게 나오는 그래프.. 긍정의 비율이 더 높군요…

코드가 잘 실행되었다는 칭찬을 해주고 바로 다음 미션을 줍니다. 긍, 부정 상위 10개 단어를 내놓거라!


긍정 단어는 친구, 도움 순, 부정 단어는 포기, 질투 순이군요.


  1. 가장 말 많은 사람의 데이터에서 추출된 주요 단어들의 네트워크는 어떤 모습일까?

이제 단순히 주요 단어만 말하는 게 아니구, 단어간의 연결은 어떤지 보고 싶었습니다.

GPT말대루 한 결과 ㅠㅠ

전혀 함의를 찾을 수 없는.. 무지막지한 그래프를 만날 수 있었습니다.

함의를 찾을 수 없다구 솔루션을 달라고 부탁했슴니다.

상위N개 단어, 연결 빈도 임계값 설정 등을 제시하는 멋진 GPT..

상위N개 단어를 중심을 코드를 만들어 달라고 했고

50개도 많아서, 20개로 줄여서 만들어보았습니다.

그 결과 대학원, 연구, 상담 등에 관한 단어가 연결성이 강한 것으로 보여져요!


  1. 가장 말 많은 사람의 데이터 상의 잠재된 주제는 무엇일까?

이제 끝을 향해 달려갑니다..!!

텍스트 데이터의 잠재된 주제를 찾기 위해서 GPT에게 플러팅을 합니다.

너랑 같이 하고싶어..!!!

적합한 주제 수를 찾기 위해서 응집성과 복잡도를 구하는 코드를 달라고 부탁을 했고,

저는 8개 정도가 적합하겠다는 생각을 하게 됩니다.

자 이제 시각화



다르게 시각화 할 수 있는 방법은 없을까 이 친구랑 티격태격하다가..ㅋㅋㅋ 징그러운 것두 만들어보고…

KakaoTalk_20230923_232012687.mp4


마지막으로 8개의 토픽의 주요단어를 중심으로 GPT와 토픽명을 명명하는 과정을 함께했습니다. 코랩에서 도출된 토픽1~8까지 단어가 담긴 파일을 다운받을 수 있게 부탁하구.

GPT에게 칭찬을 해주던 도중. 중간에 파일이 깨진 것을 발견.. 역시나 에러를 잘 고쳐주는 GPT

다음 시도는 성공!!! 좋습니다!!

GPT에게 토픽별로 이름을 만들어달라고 부탁한 결과. 상투적인 제목을 뱉어내길래..


이렇게 친근감 있고, 센스있는 제목들로 바꾸어서 제시해주기도 하였습니다!!

공부의 미로, 그 고민의 끝은? / 우리만의 연구 여행, 대학원 대탐험 등의 토픽명이 참 귀엽고 공감갔는데요.


제가 운영하는 단톡방이 주제의 범위가 넓으나,

구성원이 학부생+취준+취업생+대학원생 다 합쳐져 있어서

제일 말이 많으신 분이 이것에 대한 조언을 가장 많이 하시기두 했었거든요.


이렇게 GPT가 도출해준 주제명을 보니, 수긍이 참 많이 갔었습니다.


자 이제 끝!!(갑자기 끝입니다.)



코인프 스터디를 통해 평소 관심있었던 텍스트마이닝을 ChatGPT를 활용하여 수행해볼 수 있어 정말 즐거운 시간이었던 것 같습니다.😊 에러났을 때 누구한테 물어볼 수 있다는 것 자체가 진짜 큰 힘이 되었다고 해야할까요.


그리고, ADA 자체가 파이썬으로 이루어진거니까 라이브러리들이 많잖아요.. 도큐먼트를 다 숙지하면 좋겠지만 실제 활용하기까지 숙지하는게 솔직히 어려울 때가 많은 문과생이라.. GPT랑 함께하면서 용기를 얻을 수 있겠다라는 생각을 참 많이 했답니다.


더 많이 알면.. 더 많이 활용할 수 있는게 GPT겠지요.

텍스트 마이닝 책 사놓구 시도 못해본 것들도 되게 많았는데 GPT 힘 빌려서 부족하게 나마 이것저것 시도해볼 수 있어서 재미있었습니다. 긴글 봐주셔서 감사합니다!

11
16개의 답글

👉 이 게시글도 읽어보세요

모집 중인 AI 스터디