목표설정
※ 데이터 시각화 및 머신러닝을 처음 공부하고 실습해보기에 논리적인 오류 및 해석 오류가 존재할 가능성이 높습니다.
이번 과제는 인하대 코인프 스터디에 제공된 인하대 과별 전입, 전출에 대한 RAW 데이터를 활용해 어떤 것이든 데이터 시각화를 진행해 보고자 목표를 설정하였습니다.
데이터 확보 및 처리
개인적인 궁금증으로 제공된 인하대 과별 데이터만을 이용하는 것이 아닌 추가적인 데이터와의 교집합을 이용해 데이터 시각화를 진행하고자 하였습니다. 이를 위해 전공과와 연관이 큰 문과대학, 공과대학 같은 인하대의 대학명 자료를 긁어와서 과에 매치시키는 작업을 진행하였습니다.
교내 홈페이지에 해당 자료가 있었지만, 데이터 크롤링을 할 줄 모르기에 단순히 드래그로 텍스트를 복사해 GPT를 통해 데이터 교집합을 만들기 위한 전처리를 진행하였습니다.
다행히 몇 번의 수정과정을 거쳐 꽤나 깔끔한 CSV파일이 만들어졌고, 해당 파일을 엑셀에 데이터 가져오기를 통해 전공과명으로 교집합을 만드는 것에 성공했습니다.
이후 두 시트의 교집합을 활용해 시각화 할 수 있는 옵션에 대해 물어봤습니다.
시트와 옵션을 비교한 결과, 문과대학 등 대학명으로 데이터를 취합해 전입, 전출률을 시각화한다면 각 대학의 인기 및 수요를 비교할 수 있지 않을까? 라는 생각으로 GPT에게 물어보며 가설을 세워보았습니다.
가설 설정
전입률이 높고 전출률이 낮음의 격차가 큰 대학은 인기가 많고 수요가 높다 할 수 있을 것이다.
그의 역은 인기와 수요가 낮고 적은 학과라 할 수 있을 것이다.
이 가설을 확인하기 위한 시각화 옵션에 관해 물어보았으나 봐도 잘 모르겠기에 전부 진행하기로 하였습니다.
이후 얻은 결과물입니다.
GPT는 막대그래프, 히트맵, 라인그래프를 제작하는 데 성공하였고 각 그래프에서 의미 도출이 가능했지만, 특히 막대그래프가 확실한 가설 검증의 의미를 제공하였습니다.
설정한 가설에 대입해 보면 높은 전입률과 낮은 전출률의 극단을 보이는 의과대학은 많은 인기와 수요를 자랑할 것이고, 그의 역의 형태를 보이는 문과대학은 적은 인기와 낮은 수요를 보여준다는 결론을 얻을 수 있었습니다.
제가 문과대학생이기에 아쉬운 결과이지만, 시각화 자료를 가설로 검증한 의미가 전반적인 사회적 통념과 많은 부분 일치됨을 확인할 수 있었습니다. 이공계의 강점을 드러내는 인하대 특성상 해당 시각화가 더욱 극단적인 모습을 제공하지 않았을까 생각이 들기도 합니다.
또한 순수학문의 성격이 강한 자연과학대와 문과대학이 약세를, 응용학문의 성격이 강한 소프트웨어융합대학과 경영대학이 높은 강세를 드러내는 부분도 인상적입니다.
머신러닝 적용해 보기
이러한 대학별 약세와 강세가 미래에는 어떠한 변화를 맞이할지 예측해보기 위해 머신러닝도 한번 시도해 보았습니다. 아마 예측엔 학년도가 필요할 듯 해 학년도를 포함한 머신러닝을 GPT에 물어봤습니다.
일단 제 목표와 가장 닮아 보이는 선형 회귀를 진행하였습니다. 해당 프롬프팅은 스터디 강의를 참조하였습니다.
어찌어찌 시각화까지 진행하는 데 큰 문제없이 성공하였습니다.
얻어낸 선형 회귀 분석의 회귀 그래프입니다.
문과대학의 전출 지원율이 시간에 따라 떨어짐을 예측한 것 같습니다. 다행히 긍정적인 지표로 해석할 수 있을 듯합니다. 또한 의과대학은 더욱 높은 지원율과 낮은 전출률을 예측하여 의과대학의 높은 인기는 쉬이 사그라들 지 않을 것을 유추해 볼 수 있을 듯합니다.
또 시각화 자료에서 높은 인기를 보였던 응용학문 대학인 경영대학과 소프트웨어융합대학은 나란히 조금은 부정적인 지표를 얻은 것이 꽤 인상적입니다.
하지만 머신러닝의 결괏값이 실제 데이터가 많이 들어간 대학일수록 보합에 가까운 성격을 보여, 해당 분석의 신뢰도에 의문이 가는 상황이라 위의 MSE와 같은 성능 지표를 추가적으로 해석해보고자 하였습니다.
아쉽게도 데이터의 크기가 적은 점으로 한계가 드러난 것 같습니다. 하지만 실제 분석이 아닌 스터디의 실습인 만큼 이 정도면 의미있는 결과를 도출했다 생각합니다.
결론 및 의의
데이터의 신뢰도에 의문이 있으나 인하대의 대학명별 전입률과 전출률에 대한 시각화를 진행하였고, 가설을 검증하였습니다. 또한 이를 바탕으로 미래의 각 대학의 인기를 예측해 보는 머신러닝을 실제 진행해 보았습니다.
데이터 시각화 및 머신러닝에 기본조차 모르는 시작점으로 3주간의 스터디로 해당 실습과제를 제작한 것은 큰 의미를 가진다고 생각합니다. 이를 시작으로 머신러닝과 통계 및 데이터 시각화에 대한 이론 지식을 더욱 함양한다면 이번 스터디를 바탕삼아 더욱 폭발적인 성장을 이룰 수 있을 것이라 기대하게 되었습니다!