[코인프 스터디] [인하대 8조] 더우면 정말 살인사건이 증가할까?

더우면 살인과 폭력 사건이 증가한다는 기사를 보았습니다.

기사에 들어가보면 “1도 상승할 때 인구 10만명당 폭력·살인 범죄는 약 32건 증가한다” 라는 내용이 있는데요, 그럼 겨울과 여름의 기온 격차가 20도 이상 벌어지면 폭력과 살인 범죄가 640건 수준까지 증가간다는 것으로 보입니다.


여름이 되면 겨울보다 10만명 당 약 640명 이상 추가적으로 죽을 위기에 처하는, 아주 무서운 이야기인 것이죠.

실제로 더우면 우리는 빡이 칩니다. 아무래도 찝찝하고… 한국의 기온 특성상 더위와 습도는 늘 동반되어 우리의 땀샘을 쉬지 못 하게 만드니까요.

그만큼 불쾌지수는 올라가고, 인간의 내면에 숨어있던 공격성 또한 눈을 뜰겁니다. 따라서 위 기사는 직관적으로 타당한 말을 하는 것으로 보입니다. 저희같은 학부생은 고개를 끄덕일 수 밖에요.


그런데

조금 더 생각해보면 뭔가 이상합니다. 혹시 눈치 채셨나요?


무엇이 이상한지 설명하기 전, Chat GPT에게 폭력, 살인 등 흉악 범죄들의 총 발생 수와 기온이 어떤 관계를 갖는지 한 번 물어보았습니다.


그러기 위해서는 데이터가 필요하겠죠. 그런데 데이터 찾는 것이 생각보다 어려워서, 이것도 ChatGPT한테 물어봤습니다. 이번에 Bing을 사용할 수 있게 된 거, 다들 아시죠?


이런식으로 알아서 믿을 수 있는 사이트들을 목적에 맞게 소개해줍니다.

범죄 데이터의 경우 브라우저 검색결과에 뜨는 단위보다 더 깊이 들어가야 찾을 수 있었는데,

통계청에 들어가서 직접 키워드를 입력하여 경찰청 월별 범죄 데이터를 받아올 수 있었습니다.


사용 데이터


기상청 포털 월별 날씨 데이터 (2017 ~ 2021)

통계청에서 제공하는 경찰청 월별 범죄 데이터 (2017 ~ 2021)


기상청에서는 최신화된 데이터를 지속적으로 업데이트 중이나, 경찰청에서는 범죄 데이터를 2021년 이후 연단위로만 공개중이라 날씨 데이터도 이에 맞추었습니다.


날씨와 폭력/살인의 관계


먼저, 기사에서 했던 대로 날씨와 폭력/살인의 관계를 통계적으로 분석하고 싶었습니다.

이렇게 기사처럼 기온과 관련이 있는 것 처럼 보이는 흉악(살인, 납치, 감금, 성폭력 등), 폭력, 풍속(성 관련) 범죄를 뽑아 분석을 돌렸습니다.

그 결과, 해당 범죄들은 2014년 기준, 월별 온도와 범죄수가 굉장히 유사하게 움직인다는 것을 알게 되었습니다.

특히 여름과 겨울은 압도적으로 높은 격차를 보이는 것 같습니다.


이후 연도별로 세부적으로 상관관계 분석, 회귀분석을 돌려 기온이 구체적으로 미치는 영향을 보았습니다.

자, 위 그림은 2016년이지만, 2017년부터 2021년까지 모든 그래프가 위와 같이 생겼고, 상관관계 또한 매우 높은 양의 상관관계를 보였습니다.


즉, 기온이 증가할 수록 분명하게 폭력, 살인, 성범죄가 증가하는 것으로 보입니다.


그러나 여기서 한 가지 의구심이 들었습니다.

ㅣ 폭력과 살인을 합산하고 기온과의 관계를 추정하는 것이 의미가 있을까…?


더위를 먹으면 폭력성이 올라간다는 것은 인정할 수 있습니다. 그러나 덥다고 해서 살인같은 흉악 범죄를 저지를까요?

일반적으로, 미치광이 살인마를 제외하고는 살인이라는 범죄는 흉악 범죄 중에서도 가장 극단적입니다. 타인의 삶을 빼앗음과 동시에 본인의 삶도 오래도록 구속당할테도, 일반적인 사람이 살인을 저지르는 것에는 엄청난 동기와 자극이 필요할 것입니다.

더위가 그런 살인이라는 범죄에 과연 저정도로 큰 영향을 미칠까요?

우리가 “더우면 살인사건이 엄청나게 증가하니까 여름은 위험하다” 라고 말할 수 있을까요?


이에, 저희 팀은 살인을 다른 사건들과 분리하여 관찰해보고자 했습니다.

GPT도 공감하네요!


가설 설정


만약 유의미한 관계가 없다면, 앞서 소개드린 기사는 서로 다른 성격의 데이터를 합산하여 통계를 냄으로써, 살인에 폭력이 가지는 기온과의 강한 양의 상관성을 전가하였다고 볼 수 있습니다. 즉, 기온이 폭력에 큰 영향을 미치는 것이지 살인에는 영향을 미치지 않을 수 있는것이죠.


분석 및 시각화 방법 선택


이렇게 GPT에게 조금 의존을 해보았습니다. 또 저희도 생각을 하고 있던 방법들이라 그대로 진행했습니다!


결과


우선 연도별로 따로 돌려봤습니다.

2017년엔 그럭저럭 양의 상관관계를 보입니다.

2018년에는 상대적으로 낮은 상관관계를 보입니다.

2019년에는 큰 폭으로 증가하는 모습입니다.

2020년에는 특이하게도 음의 상관관계를 보입니다.

2021년에는 관계가 거의 없는 것으로 보입니다.


가설 검증


이렇게 5년치 데이터를 개별적으로 분석 후 종합하여 가설을 검증해봤습니다. GPT에 의하면 피어슨 상관계수의 유의성 검정을 이용할때 가장 효과적일 것이라 합니다.

검증 결과, 기온이 증가함에 따라 살인도 증가하지만, 그 유의미함의 정도는 약한 것을 알 수 있습니다.


마지막으로 5년치 기온과 살인 사건 수를 종합하여 시각화한 그래프입니다.

여기서도 기온과 살인의 상관관계는 유의미하나 그 정도가 약합니다.


따라서, 폭력 범죄와 합쳐졌을 때 보였던 매우 강한 양의 상관관계는 살인만 따로 떼어놓았을 때 찾아볼 수 없었습니다.

기온의 상승은 폭력범죄를 매우 크게 증가시키지만, 살인마저 매우 크게 증가시키지는 않는 것으로 보입니다. 따라서, 처음 소개드린 기사는 서로 다른 성격을 가진 범죄를 합산하여 기온에 따른 각 범죄의 효과를 희석하였습니다. 이에 살인에 대한 위험성을 과대평가한 것으로 보입니다.


그러나, 살인은 한 건 한 건이 사회에 매우 치명적인 공포감을 형성하는 중대 범죄입니다. 따라서, 아주 조금의 양의 관계라도 있다면 그것을 외면해서는 안 될 것으로 보이며, 여름철에 경찰이 순찰을 더 늘리는 것은 경제적으로 비판하기 어려운 일일 것 같습니다.

추가로 저희는 상관관계를 분석한 것이지 인과관계를 분석한 것은 아님을 전해드립니다.


특이한 사실


이번 과제를 수행하며 가장 어려웠던 것은, 많은 정보를 담고 있는 데이터 파일들을 GPT가 알아먹기 쉽게 전처리하는 것이었습니다. 파일을 GPT가 일정 시간 뒤에 까먹어서 대화를 하다가 중간중간 계속 다시 먹여야 했는데, 그때마다 불필요한 정보를 다시 필터링해야했고, 인코딩도 해야했습니다. 그럼 그 과정에서 분명히 또 데이터가 꼬이거든요.

이거 하느라 50번 채팅 기회를 세 번 사용하여 도합 8시간 이상 위 가설을 검증해야했습니다.

전처리 과정에서 GPT가 뱉은 틀려먹은 파일들…


직접 했으면 더 금방 했겠지만… 이왕이면 전 과정을 GPT에게 시켜보고 싶었습니다.

그러다 한 가지 재밌는 사실을 알게 되었습니다.


아래는 예시입니다.

우리가 알고 싶은 것은 “살인”에 대한 “시점”별 데이터였습니다.

따라서 연도, 월, 살인이라는 세 행만 있으면 됐었고, 열 중에서는 “계” 열이 불필요했습니다.

특히 계 데이터를 자꾸만 GPT가 1월로 인식해서

이 느낌으로 극단적인 Crime Day를 만들었거든요…

이를 막고자 GPT에게 전처리를 여러번 설명을 해줬습니다.

드디어 된건가 싶어서 열어보면…

여전히 1월은 범죄의 날이거나 아예 월을 2월부터 9월까지만 뱉어내거나… 엉망진창이었습니다.


그래서 그냥 직접 전처리를 해서 가져다 주고, 읽어보라고 했습니다.

근데 이걸 또 틀렸습니다. 도대체 이해가 안 되어서 직접 코드를 열어보니!

이녀석이 제가 준 파일을 제대로 읽어보지도 않고 2014년 1월, 2월에 대한 키값을 설정해서 검색하고 있는게 아니겠습니까…

CSV에서 연도와 월은 서로 다른 셀에 분리되어서 표기되어 있는데, 마음대로 연도와 월을 합친 ‘2014.1’을 키값으로 설정해서 검색을 하니 제대로 될 리가 없었습니다.

그래서 바로 지적을 해줬습니다.

그렇게… 드디어 제대로된 데이터를 읽을 수 있게 된 우리의 챗GPT.

혹시 여러분의 시각화된 자료가 너무 이상하게 생겼다면 이런 문제일 확률이 높습니다. 이녀석이 엑셀 파일을 주는대로 다 이해하지는 못 하는 것 같고, 데이터 분석에 들어가기 전에 정말 제대로 이해하고 있는 것인지 검증이 필요합니다.


이제 마지막으로

다시는 이 짓을 반복하지 않기 위해… 검증된 지금 GPT에게 데이터 파일 전처리를 부탁했습니다.

결과입니다. 아주 편안합니다.


이렇게, 또 한 번 Chat GPT를 잘 사용하는 것은 정말 어려운 일이라는 것을 깨달았습니다.

그리고 결국 이녀석이 해낸다는 것도 알게 되었습니다. 사용자가 좀 더 경험이 많았다면 이렇게 오래 걸리지 않았을 일인데!



Chat GPT를 통해 평소 담쌓고 살던 데이터 분석을 체험해보고, 앞으로 시간낭비하지 않을 수 있는 방법도 배우게 된 소중한 3주였습니다.


함께 머리카락을 움켜쥐고 고민해주신 팀원분들, 운영자님들, 강사님들 모두 감사합니다!

7
2개의 답글

(채용) 콘텐츠 마케터, AI 엔지니어, 백엔드 개발자

지피터스의 수 천개 AI 활용 사례 데이터를 AI로 재가공 할 인재를 찾습니다

👉 이 게시글도 읽어보세요