코드인터프리터 11팀: 한재서, 이상무, 권윤아, 조민수, 방형록, 서현승
1. 과제 목표
인하대학교의 2020~2023 전입/전출 파일을 활용하여 2020 - 2022년의 결과를 바탕으로 2023년도의 결과를 예측한다. 이를 실제값과 비교하여 GPT4의 정확도를 측정한다.
2. 자료 사용
인하대 전입 전출 Raw (1).xlsx나춘배님이 정리해주신 인하대학교 전입/전출 RAW 파일을 사용했습니다.
3. 연구 방법
3-1. 의사 결정 트리 모델(Decision Tree Model)
먼저, 전처리과정에서 수로 처리할 수 없는 전입정원이 “여석 없음”으로 표기된 학과를 제외한다. 또한 누락된 전입, 전출 정원 & 비율을 채우기 위해 GPT에게 예측하도록 하였다. 완성된 표를 바탕으로 2020-2022년의 결과를 의사 결정 트리를 활용하여 분석하고 2023년의 결과를 예측하였다. 이를 실제값과 비교한 결과를 시각화하도록 하였다.
대화 로그 :
https://chat.openai.com/share/e10d16da-39a1-4d05-84a9-85402122dfea
3-2. 선형 회귀 모델(Linear Regression Model) / 랜덤 포레스트 모델(Random Forest Model)
2학년 '전입'에 관한 정원, 지원율만 제외하고, 나머지 데이터에 대한 정리 작업
비교군(2023 2학년 전입 데이터) 추출 및 원본 데이터에서 2023 데이터 삭제
‘여석없음’ 으로 나온 학과 데이터 삭제
정리된 20~22 데이터를 토대로 ‘선형 회귀 모델(linear regression model)’을 통해 2023 데이터 예측
랜덤 포레스트 모델(random forest model)을 통해 2023 데이터 예측
비교군(2023 2학년 전입 데이터)와의 비교를 통해서 두 모델의 예측 정확성 측정(백분율)
최종적인 GPT4의 종합적 정확성 측정(백분율)
대화 로그:
https://chat.openai.com/share/265daf62-df82-45f8-8148-8cfa6c7b98e9
4. 연구 결과
4-1. 의사 결정 트리 모델- 전입&전출 예측값과 실제값
4-2. 선형 회귀 모델 / 랜덤 포레스트 모델
주의: 한글 폰트가 꺠지는 문제 발생.
ㅁㅁㅁㅁ은 전입 정원
ㅁㅁㅁ은 지원율
A. 모델별 성능(정확도) 지표:
B. 모델별 성능(정확도) 지표 - 백분율:
C. GPT4에 대한 총체적 정확도:
5. 결론
위의 그래프를 바탕으로 알 수 있는 정보는 다음과 같다.
가장 전입이 많은 학과의 실제&예측 비교값
학부/과(전공) | 실제 지원율 | 예측 지원율
--------------------------|-----------|-----------
전자공학과(전자공학) | 2.50% | 2.33%
간호학과(간호학) | 1.33% | 1.10%
인공지능공학과(인공지능공학) | 1.33% | 1.10%
가장 전출이 많은 학과의 실제&예측 비교값
학부/과(전공) | 실제 전출 지원율 | 예측 전출 지원율
----------------------|---------------|---------------
기계공학과(기계공학) | 0.30% | 0.75%
컴퓨터공학과(컴퓨터공학) | 0.75% | 0.75%
기계공학과(기계공학) | 0.29% | 0.15%
GPT4의 총체적 정확도(선형 회귀, 랜덤 포레스트 한정)
전입정원에서는 81.81%
지원율에서는 84.41% 의 정확도를 보여준다.