데이터 분석을 하다 보면 전혀 알지 못하는 도메인의 데이터를 분석해야 하는 경우가 생기는데요. 예전에는 데이터를 보고도 어떤 것을 의미하는지 전혀 알 수 없어서 분석을 포기했었지만, ChatGPT 등장 이후에는 많은 도움을 받고 있습니다.
분석을 위해 소방안전 빅데이터플랫폼에서 전혀 모르는 데이터를 가져와보겠습니다.
수집한 2개의 파일을 엑셀로 열어보면 전혀 알 수 없는 데이터가 적혀 있습니다.
ChatGPT Plus에 두 데이터를 첨부하고 너는 최고!라고 프롬프트를 입력합니다.
ChatGPT는 이 알 수 없는 말로 써져 있는 csv파일의 데이터들의 컬럼들에 대해 친절하게 설명해줍니다.
데이터 분석을 하기 위해서는 제일 먼저 가설을 수립해야 하는데, 해당 도메인에 대한 지식이 전혀 없는 저는 어떻게 가설을 수립해야 할지 엄두가 안납니다. 하지만 ChatGPT는 전문가처럼 가설을 세워줍니다.
(캡쳐에는 4개만 세워준 것처럼 보이지만, 총 7개를 세워줬네요.)
이번에는 ChatGPT가 세워준 가설들 중 몇 개를 한번 검증해보겠습니다.
먼저 1번 가설 <부식 위험도와 배관 재료의 관계> 을 검증해보겠습니다.
박스그래프와 기술통계값만 봐서는 무엇을 의마하는지 전혀 모르겠습니다. 기술통계량을 해석해달라고 했습니다.
전위측정값이 데이터를 분석하는데 중요한 데이터인 것 같아 어떤 데이터인지를 물어보았습니다.
여전히 <1>가설에 대한 검증이 제대로 이뤄지지 않은 것 같아 단도직입적으로 물어보았습니다.
왠지…첨부한 데이터에 기반해서가 아닌 일반적인 이야기를 하는 것 같아, 배관재료 데이터를 엑셀에서 살펴보았습니다. 배관 재료 데이터가 들어가 있는 컬럼은 ‘PIPE_MATR’ 입니다. (배관재료 데이터가 어떤 컬럼인지는 데이터를 첨부했을 때 ChatGPT가 알려주었습니다.) 해당 컬럼의 데이터를 살펴보니, 모두 MOP869입니다….. 사실상 데이터 분석의 의미가 없네요..
여기서 포기하지 않고 다른 가설을 검증해보고자 합니다.
ChatGPT가 세워준 가설 중 4번째 가설 <AC 측정값의 변동성과 배관의 유지보수 필요성> : AC 측정값의 변동성이 큰 배관은 유지보수가 필요할 가능성이 높다. 지속적으로 높은 AC 측정값을 보이는 배관은 부식 위험이나 기타 문제가 있을 수 있다.
을 검증해보고자 합니다.
ChatGPT의 분석에 따르면 이름이 ‘5007’, ‘5008’, ‘5009’ 인 터미널은 AC특정값이 높고 분산값이 크기 때문에 추가적인 조사와 유지 보수가 필요하다는 것을 알 수 있습니다.
이상 전혀 모르는 도메인의 데이터를 분석하고자 할 때 ChatGPT를 사용하면 매우 유용하다는 것을 알 수 있었습니다. 물론 조금은… ChatGPT가 잘 하는지 따져봐야 하지만요;;;
ChatGPT 링크 공유 : https://chat.openai.com/share/f3130afb-28d8-4e74-b6fd-252963d6989e
#9기ai알바생