[코인프 스터디][11팀] GPT4는 예측을 잘할까?

코드인터프리터 11팀: 한재서, 이상무, 권윤아, 조민수, 방형록, 서현승

1. 과제 목표

인하대학교의 2020~2023 전입/전출 파일을 활용하여 2020 - 2022년의 결과를 바탕으로 2023년도의 결과를 예측한다. 이를 실제값과 비교하여 GPT4의 정확도를 측정한다.

2. 자료 사용

나춘배님이 정리해주신 인하대학교 전입/전출 RAW 파일을 사용했습니다.

3. 연구 방법

3-1. 의사 결정 트리 모델(Decision Tree Model)

먼저, 전처리과정에서 수로 처리할 수 없는 전입정원이 “여석 없음”으로 표기된 학과를 제외한다. 또한 누락된 전입, 전출 정원 & 비율을 채우기 위해 GPT에게 예측하도록 하였다. 완성된 표를 바탕으로 2020-2022년의 결과를 의사 결정 트리를 활용하여 분석하고 2023년의 결과를 예측하였다. 이를 실제값과 비교한 결과를 시각화하도록 하였다.

대화 로그 :

https://chat.openai.com/share/e10d16da-39a1-4d05-84a9-85402122dfea

3-2. 선형 회귀 모델(Linear Regression Model) / 랜덤 포레스트 모델(Random Forest Model)

2학년 '전입'에 관한 정원, 지원율만 제외하고, 나머지 데이터에 대한 정리 작업
비교군(2023 2학년 전입 데이터) 추출 및 원본 데이터에서 2023 데이터 삭제
‘여석없음’ 으로 나온 학과 데이터 삭제
정리된 20~22 데이터를 토대로 ‘선형 회귀 모델(linear regression model)’을 통해 2023 데이터 예측
랜덤 포레스트 모델(random forest model)을 통해 2023 데이터 예측
비교군(2023 2학년 전입 데이터)와의 비교를 통해서 두 모델의 예측 정확성 측정(백분율)
최종적인 GPT4의 종합적 정확성 측정(백분율)

대화 로그:

https://chat.openai.com/share/265daf62-df82-45f8-8148-8cfa6c7b98e9

4. 연구 결과

4-1. 의사 결정 트리 모델- 전입&전출 예측값과 실제값

4-2. 선형 회귀 모델 / 랜덤 포레스트 모델

주의: 한글 폰트가 꺠지는 문제 발생.

ㅁㅁㅁㅁ은 전입 정원

ㅁㅁㅁ은 지원율

A. 모델별 성능(정확도) 지표:

B. 모델별 성능(정확도) 지표 - 백분율:

C. GPT4에 대한 총체적 정확도:

5. 결론

위의 그래프를 바탕으로 알 수 있는 정보는 다음과 같다.

가장 전입이 많은 학과의 실제&예측 비교값

학부/과(전공)                | 실제 지원율 | 예측 지원율 
--------------------------|-----------|-----------
전자공학과(전자공학)          | 2.50%     | 2.33%     
간호학과(간호학)             | 1.33%     | 1.10%     
인공지능공학과(인공지능공학) | 1.33%     | 1.10%

가장 전출이 많은 학과의 실제&예측 비교값

학부/과(전공)            | 실제 전출 지원율 | 예측 전출 지원율 
----------------------|---------------|---------------
기계공학과(기계공학)      | 0.30%         | 0.75%         
컴퓨터공학과(컴퓨터공학) | 0.75%         | 0.75%         
기계공학과(기계공학)      | 0.29%         | 0.15%

GPT4의 총체적 정확도(선형 회귀, 랜덤 포레스트 한정)

전입정원에서는 81.81%

지원율에서는 84.41% 의 정확도를 보여준다.

⏰ 가장 빠르게 AI를 배우는 곳 | 지피터스 AI스터디 17기 🚀