7/29일 토요일 지피터스 강남모임 식사자리에서
‘gpt4 code interperter 에 여러개의 파일을 압축해서 업로드하면 gpt 가 알아서 다 읽고 데이터분석을 해준다’
는 말을 들었습니다. 그 전까지 파일 1개만 업로드 되는줄 알고 파이썬으로 노가다 하던 저에게는 충격이었습니다.
(토요 오프 모임은 정말 많은 도움이 됩니다. 강력하게 추천 합니다)
그래서 해봤습니다.
스터디카페의 회원정보, 결제정보, 이용정보 3개의 rawdata 엑셀파일을 전처리 없이 압축해서 업로드 했습니다.
rawdata1 member
rawdata2 pay
rawdata3 use
프롬프트는 아래와 같습니다.
※ 파일에 고객의 개인정보가 포함되어 있어서 쉐어 링크는 올리지 못했습니다. 양해 부탁 드립니다.
merged_pay, merged_use 파일로 결과물이 나왔습니다.
결과물이 제대로 나왔는지 알아보기 위해 Looker Studio (구. 구글데이터스튜디오) 에 파일을 업로드하고 돌려봤습니다.
동적 데이터 세트인데 다 잘돌아갑니다. 숫자도 틀린곳은 보이지 않습니다.
그리고 gpt4 code interperter 에 위의 결과물 파일을 업로드하고 분석을 부탁했습니다.
고3, 20대후반 연령대가 17시, 16시, 19시에 많이 이용하고 가장 인기 있는 좌석은 36번이니 마케팅에 참고하라는 답변을 받았습니다. 더 좋은 질문을 한다면 더 좋은 데이터분석이 나올 것 같습니다.
결 론은 엑셀 파일 여러개를 압축해서 올려도 데이터 병합, 분석 다 할 수 있다 입니다. 개인적으로 너무 놀랐습니다. 엑셀과 파이썬으로 데이터 전처리 하시던 분들도 저와 같은 마음이라 생각됩니다.
그리고 만약 데이터 양이 많아서 gpt에 업로드가 안된다면 일부만 잘라서 업로드 후 파이썬 코드를 만들어 달라고 할 수 있을 것 같습니다.
만약 회사에 데이터 시각화가 자동화 되어있지 않고 엑셀로 수작업을 하신다면 gpt4 interpreter 를 사용하는 것도 괜찮을 것 같습니다.
[부연 설명] 기존에 제가 데이터 전처리를 하던 방법입니다.
여러분들은 아실 필요 없습니다. GPT에 자연어로 명령하면 되니까요 ㅠㅠ
다만, 제가 얼마나 gpt 를 보고 놀랐는지에 대한 공감만 부탁드립니다.
Member
회원 정보 데이터입니다.
연락처, 이름, 생년월일, 성별이 있습니다.
생년월일로 고객의 나이와 연령대를 계산하고 싶습니다.
하지만 rawdata 가 ‘2005년06월01일’ 텍스트 형식으로 되어 있어서 앞에 2005년만 떼어내서 연령대 계산을 해야할 것 같습니다. 성가신 작업입니다.
코드 설명
생년 함수를 만듭니다. 연도별로 연령대를 입력하는 함수입니다.
생년월일 컬럼에서 생년을 빼는 코드를 만듭니다.
생년월일을 문자열로 바꾸고 인덱스 (0,4) 즉, 4번째 문자까지 슬라이스해서 다시 숫자로 바꿔줍니다.
예) 2005년 slice(0,4) -> 2005
연령대 만드는 코드를 만듭니다.
방금 만든 생년 컬럼에 처음에 만든 생년 함수를 적용했습니다.
파이썬을 초보인 저에게는 상당한 컴퓨팅 사고를 요하는 작업이었지만,
GPT에서는 ‘다음 기준에 따라 연령대를 구분해줘 ’ 라고 자연어로 명령했습니다.
gpt를 4개월 정도 사용했지만 자연어 명령은 아직까지도 놀랍습니다.
추가로
이용 데이터에서 [종료] 컬럼의 ‘6시간21분’ 텍스트 형식을 시간으로 바꾸는 더 재밌는 컴퓨팅 사고 작업도 있었지만,
GPT에서는 ‘종료 컬럼을 시간으로 바꿔서 이용시간 컬럼으로 만들어줘 ’ 라고 자연어로 명령했습니다.
끝으로,
gpt로 데이터 분석, 코딩, 블로그 글 자동화 작업 등을 보면서 요즘 느끼는 것은
인간을 이해시키기 위한 이 작업들이 언제까지 의미가 있을까? 입니다.
이상입니다.