gemini로 통계분석 해보기

소개

이제까지 불교 논문에 대해서 이야기 하긴 했지만, 제 원래 연구 분야는 의료 데이터를 다루는 것입니다. 특히 국민건강영양조사를 자주 다뤘습니다.

2020 단어가있는 책의 표지

아래와 같이 생겼죠.

많은 사람들과 무게가있는 테이블

그러다보니 이 데이터셋을 이용해 논문을 쓰려면 SPSS나 R과 같은 통계프로그램을 다뤄야 합니다. 저는 SPSS를 배웠던 터라 SPSS를 주로 썼었는데요. chatgpt가 처음 나왔을 당시 chatgpt한테 통계분석을 맡겼다가 포기했던 적이 있습니다.

다른 유형의 데이터를 보여주는 모바일 앱의 스크린 샷
고작 2년만에 사라진 기능이지만요. 기억 하시나요?

왜냐하면, 통계분석을 할 때는 데이터의 분포에 따라 모수통계방법 또는 비모수통계방법을 써야 하는데, 무조건 피어슨으로 해버리거나, 무조건 스피어만으로 해버리는 경우가 있었거든요.

이런겁니다.

그게 2023년이고, 그 이후로 LLM모델한테 통계분석을 맡긴적은 없었습니다.

그런데 보배교수님 수업에서 google sheet에 데이터를 업로드 한 다음 gemini 한테 명령하면서 통계분석을 하는걸 보았습니다.

꽤 괜찮은것 같더군요. 그래서 곧바로 실행해 봤습니다.

스프레드 시트에 여러 숫자를 보여주는 테이블

먼저 예전에 논문 쓸 때 만들어둔, 국민건강영양조사(이하 국건영)에서 추출한 10대 청소년의 성별, 연령, 신장, 체중, 허리둘레, BMI 데이터를 가져옵니다.

중국어로 된 스프레드 시트의 스크린 샷

구글 sheets에 넣어줍니다. 자연스럽게 화면 우측에 gemini가 뜨는군요.

한국어 텍스트가있는 페이지의 스크린 샷

의료 연구에서 가장 많이 하는 나이를 group으로 묶는걸 시켜봅니다. 과연 잘 할까요?(혹시 안 될까봐 빈 열도 하나 만들어 줍니다.)

한국의 스프레드 시트 스크린 샷

뭔가 되는거 같더니 아무일도 안 벌어집니다.

한국어 문자 메시지의 스크린 샷

그래도 수식은 자동으로 만들어주니 나쁘지 않습니다.

한국의 메시지 스크린 샷

보배교수님은 새로운 데이터도 잘 하시던데 저는 잘 안되는군요...그래서 이번에는 평균분석을 해보기로 했습니다.

사람의 체중과 높이를 보여주는 테이블

그럴싸한 값이 나왔습니다. 한번 spss를 돌려서 검증해보죠.

여러 숫자를 보여주는 스프레드 시트의 스크린 샷

SPSS를 켜줍니다.

한국 컴퓨터 화면의 스크린 샷

각 성별마다 값이 나오도록 파일 분할을 해줍니다.

한국어가있는 컴퓨터 화면의 스크린 샷

거기에 이제 ANOVA를 켜서 평균비교를 해줍니다(평균비교를 한번에 할 수 있는 대표적인 꼼수입니다. ㅎㅎ)

컴퓨터의 한국어 설정 스크린 샷

물론 옵션에서 평균 도표를 설정해 주어야 합니다.

많은 숫자가있는 테이블

그러면 좀 보기 힘들긴 하지만 이렇게 결과가 나옵니다. Sex=0이 남성이므로 남성의 값을 한번 비교해 볼까요?

많은 행과 열이있는 스프레드 시트의 스크린 샷

오 기초적인 평균분석은 쉽게 해줍니다. 정답이군요.

한국 문자 메시지의 스크린 샷

이번에는 좀 더 어려운 회귀(regression)식을 요청해봅시다.

한국 문자 메시지의 스크린 샷

? 평균비교 할 때보다 결과가 더 빨리 나왔습니다. 그리고 또 그럴듯 해요?

창에서 한국어의 스크린 샷

바로 검증해줍니다.

한국 컴퓨터 화면의 스크린 샷
한국 컴퓨터 화면의 스크린 샷

독립변수와 종속변수를 넣어주고, 통계량은 일단 다 넣어줍니다.

크기와 숫자가 다른 테이블

그리고 이렇게 결과를 내줍니다(돌리기 전에 아까 데이터 분할 했던거 취소해 주어야 합니다. 안 그러면 결과가 안나와요)

많은 숫자가있는 테이블

자 그럼 회귀식에 필요한 값을 확대해서 살펴봐 줍니다.

한국 문자 메시지의 스크린 샷

혹시나 통계 결과를 볼 줄 모르는 분들을 위해 설명드리면, 저 비표준화계수의 B 값을 보시면 됩니다. Sex가 -0.717, Weight 가 +0.849, Height 가 -0.349, Age 가 -0.154로 Gemini의 계산이 맞는것을 볼 수 있습니다!

오!

그러면 이제 저 85.8%가 맞는지 봐야겠죠?

한국의 사람들의 수를 보여주는 테이블

그거는 여기 이 수정된 R 제곱(알 스퀘어값이라고 읽습니다.)를 보면, 0.858로 Gemini의 계산 결과와 일치하는 것을 알 수 있었습니다.

한국어 문자 메시지의 스크린 샷

F 값도 순식간에 계산해버립니다.

ANOVA 섹시 섹시 섹시 섹시 섹시 섹시 섹시 섹시

모형 요약 값에도 있긴 하지만, ANOVA의 결과를 보면 더 확실하죠?

세상에 저는 SPSS에 익숙해지는데만 몇 주는 걸렸던거 같은데, Gemini는 빈도분석, 평균분석, 회귀분석 정도는 그냥 문장 몇개로 끝내버리는군요...

솔직히 놀랐습니다.

결과와 배운 점

과거 GPT analytics 정도 생각하고 써 봤는데 굉장히 편합니다. SPSS는 정확하긴 하지만, 사용료가 비싸고, 또 프로그램이 무거워서 켜고 끄는데 한참 걸리는데, google sheets는 무료인데다가, 분석도 순식간에 해주니 간단한 통계분석이면 이제 크몽에 의뢰하지 않아도 될 것 같습니다(이렇게 제 밥줄 하나가 또 사라집니다).

물론 국건영같은 작은 자료 말고 HIRA나, 뇌파자료같이 행이 백만 단위로 늘어나는 데이터셋이면 안되지만(이건 R을 써도 돌리는데 몇 시간 씩 걸리기도 합니다.), 수천개 정도의 데이터셋이라면 Sheets와 Gemini로 간단히 분석하기 충분한것 같습니다.

AI의 발전...정말 무섭네요.

끝!

4
2개의 답글

뉴스레터 무료 구독

👉 이 게시글도 읽어보세요