안녕하세요! 데이터 분석 스터디에 참여하고 있는 강주연입니다.
저는 그동안 텍스트 데이터 분석과 관련해서만 시도를 해보았는데,
이번에는.. 제일 좀 두려움을 가지고 있는? 양적 연구 파트를 GPT와 함께 시도를 해보려고 합니다. 제 개인적인 스터디 목표 중 하나이기도 하였구요..!!
우리 스터디 위키에도 구체적으로 하고 싶은 일에 양적 연구에 대해 경험하고 부딪히며, 두려움을 극복하고 싶다!!!라는 포부를 밝혔지만, 두려우니 자꾸 회피하게 되는.. 그래서 제가 좋아하는 텍스트 분석만 생각하곤 했는데, 스터디 마지막이니, 아 회피하지말자. 실패해도 부딪히자 라는 생각을 하게 됩니다.
데이터는 kossda(한국사회과학자료원)에서 내려받았구요!
GPT와 함께 풀어갈 질문은
“청소년의 주관적 행복 관련 잠재프로파일은 어떻게 구분되며, 그 특징은 어떠한가?” 입니다.
주관적 행복 관련 변수들은 총 6개(건강, 학교생활, 삶의 만족도, 소속감, 사회성, 외로움)입니다.
아, 여기서 잠재프로파일 분석은..!!!
GPT에게 코랩을 통해서 적합한 잠재프로파일 수를 구할 수 있도록 코드를 부탁했습니다.
역시나 거침없이 뱉어내는..
코랩에 적용한 결과
BIC, 엔트로피 지수 등을 기반으로 잠재프로파일 갯수를 정하는데,
선행연구에 따르면… BIC값은 낮은 것, 엔트로피 값은 1에 가까울수록 정확한 분류인데, 애초에 엔트로피 값이 너무 낮아서..사실 이 데이터는 분류에 쓰기엔 적합한 데이터로 보이지 않습니다만, 그래도 시도하는데 의의를 두고 계속 진행하기로 했습니다. (*명확한 한계임을 밝힙니다.)
3개로 할지 4개로 할지 고민하다가, 우선은 GPT가 제시한 4개를 기준으로 진행하였습니다.
GPT에서 잠재프로파일 분석을 할 수 있는 코드를 부탁하고,
이렇게 결과가 도출됩니다. 데이터 마다 프로파일 그룹이 어디인지 새롭게 컬럼이 추가되게 값이 기입되고, 프로파일 그룹에 따라 건강, 학교생활, 삶의 만족도, 소속감, 사회성, 외로움의 평균값이 어떻게 나오는지 도출해주었습니다.
제가 프로파일에 속하는 비율이 필요하다고 말을 하니, 이렇게 친절히 알려주는 GPT씨
각 프로파일별 모습을 시각화 하기 위해 역시 코드를 물어보았구요,
프로파일별 특성을 비교할 수 있도록 선 그래프를 그릴 수 있었습니다.
프로파일별 평균값을 GPT에게 제시하였고, “분석결과에 대한 인사이트들을 종합해서 결론 및 시사점을 작성해달라고 부탁”했습니다. (““안에 있는 표현을 송교수님께서 가르침을 주신 프롬포트를 참고했습니다.)
그랬더니, 생각보다 괜찮은 이야기를 꺼내놓는 GPT
좀 더 아쉬워서 풍부하게 부탁한다고 했더니
생각보다 질적으로 괜찮은(?) 이야기를 꺼내줍니다.
자 이것으로 마무리 하겠습니다 !
프로파일별로 다른 변수들과 차이가 있는지도 보고 그럴 수 있는데, 우선은 시도만 해본 것으로 만족했습니다..
제가 R 이나 MPlus쪽은 못다뤄서, 실제 gpt도움을 받아서 실행한 lpa 결과값이랑 동일한지는 검증을 못해서 아쉬운 부분으로 남습니다. 그래도 시도해본 것에 의의를 두려합니다.
길다면 길고, 짧다면 짧았던. 스터디 시간이었는데..
스터디의 2번 발표하겠다는 소정의 목표를 성취할 수 있어서 참으로 다행이라는 생각이 큽니다. 모두 만나뵙게 되어서 무척 영광이었습니다!
BONUS
교수님께서 gpt에게 가상의 데이터를 만들어 달라고 부탁해서 데이터 분석을 시도해볼 수있다고 하셨는데.. 한번 겁도 없이 도전해본 흔적도 공유합니다. 총총