Gemini와 함께 RStudio로 반복되는 Exploratory Data Analysis 즐겁게 하기

소개

안녕하세요, 매우 소소해서 이런 내용이 사례글이 될 수 있을까 싶지만요TT
작은 내용이라도 공유를 드려 봅니다.

최근에 많은 데이터를 다루며 반복되는 Exploratory Data Analysis 작업을 진행하고 있는데요,
R studio + Gemini와 함께 기초통계 정리부터 시각화 plot의 저장까지
아주 즐겁게 처리했던 경험을 공유드리고자 합니다.

이 글은 지난번 제가 작성한 stata와 함께 진행을 했던 글에 연속선상에 있는 글이기도 합니다.
단순히(무대뽀로) Generative AI에 숫자 자체를 주고 분석하라는 접근 아닌, 기존에 쓰던 통계 툴을 더 유연하고 효율적으로 다루기 위해 Gemini를 보조 도구로 활용한 사례입니다.

보통 단순한 통계는 익숙한 tool인 stata를 많이 쓰곤 했지만,
다들 아시다시피, flexible하고 시각화에 최적화된 통계 tool이라 하면 R studio만한게 없죠

진행 방법

어떤 도구를 사용했고, 어떻게 활용하셨나요?

  • Gemini (Google AI): 반복되는 R 코드를 프롬프트로 자동 생성

  • RStudio: 코드 실행 및 데이터 분석 환경

  • Excel: 결과 저장용 포맷

💬 사용한 프롬프트 예시

R studio code 짜줘. 

#분석
(1) 실험군과 대조군 간의 임상변수들의 t-test를 진행하고,
임상변수 군별 평균(SD) t-value p-value를 행으로 하는 table을 만들어주고 Excel파일로 저장해줘.

#기본정보
(1) 데이터셋과 경로 정보
input data path: [입력 파일 경로 예시]
input dataset: [입력 파일명 예시]

output data path: [출력 폴더 경로 예시]

(2) 군정보
group3
0(Control), 1(실험군), 2(대조군)

(3) 주요 변수 정의 예시
e.g., vars <- c("aaa", ...)

결과와 배운 점

✅ 좋았던 점

  • 매번 하던 t-test 결과 정리 → 완전 자동화

  • 코드 저장 + 결과 저장까지 한 번에 진행되니 반복 업무에서 해방

  • Gemini가 의외로 R 통계 코드도 매우 잘 짜줘서, 생산성 향상에 도움

💡 배운 점과 나만의 꿀팁

  1. 명령어 구조에 대한 기본 이해만 있다면, RStudio를 Gemini를 통해 조절할 수 있습니다!

    • for문, if 조건, 변수 저장 등 기본 구조만 알아도 충분히 가능해요

  2. R을 조금이라도 써본 분이라면 훨씬 수월합니다 (특히 ggplot2 사용 경험, R의 performance가 어디까지인지 알아야 Gemini한테 시킬 수 있으니깐요 )

⚠️ 시행착오

  1. 변수명에 공백이 있을 경우 에러가 나는 경우가 자주 있었어요. 그럴경우 Gemini에게 먼저 변수명이 실존한지 체크하는 code를 달라고 한 뒤 점검하고 진행하면 됩니다.

  2. 에러 메시지를 그대로 Gemini에게 줘도 꽤 잘 해결해주긴 하지만,

    • 가끔은 데이터셋의 변수를 없애버리는 위험한 수정을 하기도 해서,

    • 결국은 사용자가 도메인 지식과 기본 검토 능력을 갖추는 게 중요하다고 느꼈어요.

1
1개의 답글

뉴스레터 무료 구독

👉 이 게시글도 읽어보세요