저희 팀은 학교에서 제공해주는 년도별 전과 지원자 현황 자료를 가지고 2024년도 자료를 예측해보기로 했습니다.
이런식으로 학교에서는 학과별 전입, 전출 경쟁률을 표시한 자료를 pdf 파일로 제공해주고 있었습니다.
2020, 2021, 2022, 2023 4개 년도의 데이터로 2024년도 현황을 분석하고자 했고 이를 위해서는 다음 pdf 자료를 excel 파일로 변환하는 과정이 필요하다고 생각했습니다.
GPT에게 다음과같이 부탁해보니 2020, 2023년도 자료는 아주 순조롭게 엑셀 파일로 변환을 잘 해주었습니다.
그런데, 왜 때문인지 2021, 2022파일은 변환하는 과정에서 많은 오류가 발생했고 여러 시행착오를 겪어야 했습니다.
저희 팀원들이 pdf 표를 엑셀로 옮기기 위해 겪었던 오류입니다. 이를 해결하기 위해 텍스트로 변환한 다음 GPT에게 명령을 한다든지, 컬럼을 제대로 제시해서 알려준다든지, 특정 문자열은 어떻게 표현하고, 비어있는 값은 어떻게 표현해라 등 좀 더 구체적으로 설명하여 부탁해보았지만 끝내 오류의 정확한 원인을 파악하지 못했습니다.
그래서 그냥 알pdf를 사용하는 방법을 택하기로 했습니다.. 🥲
이렇게 엑셀로 변환한 4개 년도의 자료를 갖고 예측을 위해 각 학과별로 2020년부터 2023년까지의 데이터를 합쳐서 하나의 데이터셋을 만들도록 했습니다. 이 과정에서 2022학년도부터 새롭게 생긴 학과의 데이터 병합을 위해 가장 최근인 2023년도의 학과를 기준으로 동일한 이름의 학과 데이터를 합쳐달라고 부탁했습니다.
데이터를 병합하는데 성공적으로 이루어졌습니다.
본격적으로 2024년도의 전입/전출 데이터 예측을 했고 다른 년도와 동일한 컬럼을 기준으로 2024년도 데이터 엑셀 파일을 만들어달라고 부탁했습니다. 성공적으로 예측한 줄 알았으나 파일을 확인해보니 전입정원의 데이터를 빼먹은 거 같았습니다.
전입정원의 데이터를 다시 분석하여 예측해달라는 과정에서 ‘여석없음‘이라는 문자열을 알아서 숫자 0으로 바꿔주는 게 신기하기도 했습니다.
결측값은 알아서 0으로 바꿔줘서 해결했지만, 기존에 있던 결측값 때문에 지원율에서는 무한대 값(inf)이 발생하였습니다.
친절하게도 무한대 값이 생기는 이유를 설명해줬습니다. 바로 inf 값 또한 0으로 바꿔달라고 요청하였고 최종적으로 정리된 데이터를 가지고 학과별 전입지원율과 전출지원율의 데이터 시각화를 부탁했습니다.
하지만 학과가 너무 많아서 그래프를 식별하는데 힘들 거 같아 GPT에게 수치가 유의미해보이는 학과 10개만 뽑아서 그래프로 만들어 달라고하였습니다.
GPT가 선정해준 10개의 학과입니다.
GPT가 선정한 학과의 2024년 전입, 전출 경쟁률 수 치입니다.
정리
PDF 별로 잘 읽히는 파일이 있고 잘 안 읽히는 파일이 있는 것 같습니다. 이를 구체적인 명령어를 통해서 읽히게 할 수 있는 건지 아니면 애초에 잘 안 읽히는 파일은 읽을 수 없는 건지 궁금증이 생기더라고요. 사실 2022년도 pdf 표와 2023 pdf 표에서 크게 다른 점을 찾지 못했는데 왜 2023 파일만 잘 읽은 건지 의문입니다🤔
파일 형식의 변환은 잘 안되지만 파일 생성이나 같은 파일형식에서의 수정은 잘 이루어지는 것 같습니다
데이터에 대한 적절한 전처리가 이루어지면 보다 더 수월하게 분석해주는 거 같았습니다
데이터 표본이 적어서 예측은 어렵지 않을까 생각했는데 예상외로 성공적으로 이루어졌습니다.
gpt가 가진 데이터에 한계가 있어 gpt에 의존하기보다는 툴을 탐색하는것이 더 효율적일수있습니다. 텍스트 추출에서 그 점을 느꼈습니다. 두개의 문서속 폰트들이 겉보기에 완벽히 같아보여도 추출시에는 서로다른 결과가 나왔습니다. 프로그램에 넣고 돌려보기 전까지는 알수 없는 것이었습니다.
gpt의 능력을 파악해서 적절한 역할을 부여하는것이 중요할것같습니다.
강의로 들을땐 무슨 요구를 하든 결과물을 내주는 만능ai인줄 알았는데, 막상 실습해보니 그런것 보단 매우 편리하고 성능도 좋지만 섬세하게 다뤄야 하는 도구에 더 가깝다는 느낌이 들었습니다.
선생님이랑 비슷하게 한 것 같은데 왜 우리는 안될까.. 하면서 답답하기도 했었지만, 거듭 정확하고 자세한 입력을 할수록 좋은 결과가 나오는 걸 보니 신기하기도 했고 gpt를 잘 활용하면 할 수 있는게 정말 많겠다~ 는 생각이 들었습니다😆