GPT로 장학금 데이터 분석을 해보자


Intro. 장학금,, 그래서 난 몇위인가


저희 학교는 한 학기 동안 대/내외 활동 기준으로 마일리지를 정산하고 장학금을 부여하는 제도가 있습니다

어제 1차 마일리지 결과가 공지 되었는데, PDF인데다가 330명이니 제 순위가 어느 정도에 있는지 알 수 없었습니다

(순위를 매기고, 그룹을 쪼개서 그룹 별로 장학금을 주는 시스템입니다)



이를 🚀 Chat GPT로 분석?한 결과를 공유합니다

결과는 아래와 같이 잘 나왔습니다


- [해당 대화](https://chat.openai.com/share/8c28ced1-21a6-49b2-b9da-281b093a41a6)

Code Interpreter로 해결하는 과정

Custom Instruction은 GPTers 그룹의 나춘배님 포스트를 참고했습니다

(포스트가 안보여, gptes 홈페이지 링크를 겁니다!)


PDF가 역시나 잘 안읽혔습니다. 구분자도 들어가서 최종적으로 위와 같이 질문하였습니다

- 한글 무시

- PDF 내용 표기 : index의 갯수, 어떤 속성을 몇개 가졌는지

- 예외처리 : PDF를 읽으면 열데이터를 모두 줄바꿈하는 이슈가 있어 입력하였습니다

- 원하는 포맷 알려주기



확실히 전반적으로 예시를 주었을 때 훨씬 원하는 답을 얻기 쉬웠습니다

GPT를 믿고, PDF에서 데이터를 추출했는데, 구분자가 섞여 들어가 전처리가 되지 않았습니다

No. 같은 데이터가 그대로 인식되어 구분자가 섞여 들어갔습니다


다시, 쓸모없는 데이터를 알려주고, 이번엔 일종의 PK 역할을 할 트리거를 명시하였습니다



하지만,,, 제 설명이 부족한건지 데이터를 이상하게 구분해서 줍니다

다시 물어봅니다. 부족한 제 설명을 보충합니다

index는 순차적으로 증가하고, 현재 데이터의 포맷이 어떤 문제를 가지고 있는지, 내가 원하는 응답 데이터 포맷이 무엇인지요

추가로, 반환된 txt에 이제껏 질문에만 넣었던 데이터 포맷을 입력해서 다시 파일을 재 업로드 했습니다


그 결과, 1차로 PDF 같은 형식으로 데이터를 추출해주었습니다


제가 원하는 것은 마일리지 점수에 따라 데이터를 정렬하고 제가 속한 그룹을 파악하는 것입니다

이제 학번과 마일리지 점수만 추출합니다


처리 과정에서 에러가 발생해서, 에러 처리 방안에 대해 알려주었습니다



또한,,, 학번과 마일리지 점수를 추출을 잘못하길래, 다시 명시해주었습니다

이번엔 성공했습니다!



전 점수에 따른 인원 분포를 보고 싶어서, 표를 수정해달라하였습니다



좋습니다. 마지막으로, 제 예상 점수를 표시해달라한 끝에 원하는 그래프를 얻을 수 있었습니다


배운 점

- PDF로 한 과정을, 그냥 PDF 데이터를 쭉 긁어서 다시 해보았는데 훨씬 빨랐습니다

- 제공한 PDF가 그냥 마우스로 스크랩해도 잘 읽혀지는 PDF였습니다

- 혼자 에러를 수정하고, 그래프 그리는건 잘하는데, 데이터 전처리 할 때 입력/출력 포맷을 알려주면 더 응답을 잘합니다

- 만들어준 파일에 공백으로만 데이터가 구분되어 있고, 제가 질문으로 어떤 데이터인지 알려주는 것보다

- 그냥 csv 파일 처럼 속성을 명시해주니 인식을 더 잘합니다.

- Custom Instruction,, 너무 좋습니다,, 혼자 다해버리게 GPT를 바꿔버립니다

원본 블로그 링크 : https://berom.tistory.com/447

7
9개의 답글