[데이터분석 7기] MBTI 유형별 포스트 내용만 보고 연애스타일 파악해보기


어떤 데이터냐?

캐글에서 ‘사람’과 관련된 데이터를 열심히 찾아봤어요. 처음에는 ‘팀 협업’의 관점에서 ‘팀역할테스트’ 등의 키워드를 찾아보고자 했으나.. 연관되는 데이터들로 big five 데이터, mbti 데이터가 나오더라고요.

(사실.. 급하게 숙제를 하기 위해서.. 뭐라도 ‘분석’을 해보고 싶어서 그나마 친숙한 mbti 데이터를 골라봤어요!)


어떤 사이트에서 유저들이 작성한 포스트들을 모은 csv 데이터인 것으로 파악되네요.



‘데이터를 시각화 해보자!’

이 플랫폼은 아무래도 ‘IN’들이 장악한 플랫폼인 게 틀림없습니다…!!!

사실 저는 ESFP이기 때문에, ESFP를 중심으로 데이터를 시각화해보고 싶었는데, ESFP 데이터는 100개도 채 되지 않아서 아쉬운 마음이..🥲


우선 가볍게 유형별로 특성을 분석해봐달라고 해봅니다.

유형별로 시각화를 했으나, don’t, think, like 등의 단어들이 다수를 차지하고 있어서 큰 인사이트는 없었습니다.

그래서 유형별로 동일하게 자주 등장하는 단어들은 제외해주고, mbti 유형 자체를 언급하는 내용들이 많아, mbti 유형을 언급하는 단어 또한 제외하고 워드클라우드를 그려달라고 했습니다.


그 다음, EDA 분석을 알아서 잘 진행해달라고 합니다.

유형별 포스트 길이 분포로 접근하네요. (유독 ESFP가 길이가 짧아보이네요?)

아마 훨씬 더 방대한 양의 데이터였거나, 각 유형별로의 포스트 수가 유사했다면 좀 달랐을까 싶지만..?


(추가) 이 그래프가 뭔지 사실 해석하기 좀 어려웠는데, 송은정 교수님께서 이걸 그대로 지피티한테 다시 해석해달라고 요청해보라고 피드백을 주셔서!! 해석을 추가해보았습니다.

아~ 이렇게 또 하나 배워갑니다. Box Plot을 보는 법을 지피티를 통해 배웠습니다. 저 박스의 가운데 선이 중앙값, 그리고 ¼ 지점과 ¾지점을 박스형태로 그려둔 거라네요. 그리고 저 아래 찍힌 점들이 아웃라이어, 즉 이상치(유독 벗어나는 값들)라고 해요.

MBTI 유형별로 포스트를 얼마나 길게 혹은 짧게 쓰는지를 분석한거라고 합니다. 그래서 그 경향성을 파악해달라고 했습니다.

IN 유형들과 ES 유형들로 나뉘는 게 재밌었습니닼ㅋㅋㅋㅋㅋㅋㅋㅋㅋ

긴포스트는 죄다 IN 유형이고, 짧은 포스트는 죄다 ES 유형이에요 ㅋㅋㅋ (재미로만 봅시다!)





자주 등장하는 단어들을 워드클라우드로 만들어달라고 했습니다.


모든 유형에서 공동으로 압도적으로 높은 빈도수를 갖는 단어들을 제외하고 다시 생성해달라는 작업을 3번 반복했습니다.

1차 : "like", "dont", "think"

2차 : "people", "really", "know", "would"

3차 : “get“, “one“ 단어

드디어 조금 다른 단어들이 나옵니다!


“이 워드클라우드 결과를 통해 각 유형별로 어떤 연애스타일일지 3문장씩 정리해줄 수 있어?”

등등 보여줍니다.


자, 이제 뭘 해보려고 하냐면요 ㅎㅎ

제가 ESFP인데, 아주 맞지 않았던 ESTJ와 지금 잘(?) 만나고있는 남자친구 유형인 ISFP를 각각 연애 관계를 분석해달라고 했습니다 ㅎㅎㅎ


두근두근

주요 단어들만 비교해봐도 ㅋㅋㅋ ESTJ의 논리적 접근법은 절 힘들게 했죠. ISFP 잘 맞는 것 같아요!


더 해볼 수 있는 게 뭐가 있을까 하여…


ESFP에 대한 ‘love’ 단어 관계분석, 감성분석, 비교분석을 진행


같은 분석을 ISFP와 ESTJ 똑같이 해달라고 했고, 그 내용을 한 눈에 비교해서 볼 수 있도록 해달라고 했습니다.


저 감성분포 그래프가 상당히 흥미로웠는데, 여기서 중요한 건 ‘데이터 수’가 아니라, ‘분포 현황’이라는 것. 그래프 모양이 폭이 크고 작음을 떠나서 분포된 모양 형태로 파악하는 것 같았습니다.


키워드 분석을 통해서 특정 경향성을 파악해주더군요.


오오오!!!? 대학생 때의 연애가 떠오릅니다. 틀에 박힌 데이트라니, 정말 안맞습니다..


ㅋㅋㅋㅋ 이 예시사례가 찰떡입니다 ㅋㅋㅋ 맨날 저는 캠핑가자고 등산가자고 조르고, 남자친구는 집데이트가 세상에서 가장 행복하다고 합니다.. (그나저나 계속 밖으로 나가고 싶어하는 건 ESFP 종특인가요..?)


키워드 분석으로만 이렇게 파악된다는 게 신기해서, 혹 다른 일반적인 데이터를 참고했나 싶어서 물어봅니다. 아니라고 하네요.. 진짜 mbti 유형별로 작성한 글들에서 그 특성이 나타난다는 게 신기합니다.



약간의 신빙성이 생겨 추가로 뭔가 더 분석할 수 있을지 물어봅니다.


문장 길이와 구조분석을 해봤습니다.

NTJ 유형들이 긴 문장을 자주 사용한다네요 ㅋㅋㅋ


NTP 유형들의 어휘다양성이 높다고 해요.


(추가) 이것도 좀 더 구체적인 분석을 해보려고 요청해보았습니다.


이렇게만 분석하니 조금 재미가 없었습니다. 자, 오늘의 주제를 향해 가볼까요?!


ESFP 여자친구 + ESTJ 남자친구의 애정표현 방식의 차이?

어휘다향성이 곧 애정표현과 연결되는 지점이 있을 것 같아서, 이전 연애를 떠올리며 예측해달라고 해봤습니다 ㅎㅎ 내가 준 자료만 갖고 분석하기보다 일반적 mbti 유형별 특성을 반영하여 분석해주길래 다른 건 참조하지 말아달라고 다시 요청했습니다.

역시!! ESFP인 저는 다양한 표현력으로 애정표현을 하는데, ESTJ 남자친구는 표현이 풍부하지 않았던 기억이 스쳐지나갑니다. (재미로만… 봐주세욬ㅋㅋ)


그렇다면 지금 남자친구는? ESFP와 ISFP의 조합

ㅋㅋㅋ 어휘다양성으로 이렇게 분석해보는 게 꽤나 재밌었습니다. 사실 저는 재밌는데 이걸 발표할 생각에 너무 부끄럽고 아주 미쳐버리겠어요



추가로 생각해본 것

오늘은 MBTI 데이터로 해봤지만, 해보고 싶은 게 생겼습니다 ㅋㅋ 요즘 ‘에이닷’ 이라고 통화 다 녹음되고 요약도 해주는 앱이 새로 나와서, 요즘 남자친구랑 통화를 다 녹음하고 있는데..! 한 달 정도 다 녹음해놓고 문장길이 분석이나 어휘다양성 분석을 해봐도 재밌을 것 같고요! 지난 주에 시도했던 학습과제물 비정형데이터를 좀 더 문장단위로 분석해서 위와같은 접근으로 해봐도 의미있을 거 같네요 ㅋㅋ!


다른 사람들에게 충분히 학습될 수 있는 내용으로 사례발표 하고 싶었지만.. 데이터분석 스터디방이 제게 좀 빡셌어요ㅜㅜ 잘 모르는 분야로 트라이하기가 어려웠어요. 그래도 주어진 과제를 잘 수행해내고 이어서 8기 스터디에 참여해서 또 새로운 도전을 해보겠습니다!! 감사했습니다 🙂

6
5개의 답글

(채용) 콘텐츠 마케터, AI 엔지니어, 백엔드 개발자

지피터스의 수 천개 AI 활용 사례 데이터를 AI로 재가공 할 인재를 찾습니다

👉 이 게시글도 읽어보세요