데이터 분석 트렌드(초안: 긴 글 주의!)

분석 범위와 방향

생성형 AI를 데이터 분석에 어떻게 활용하고 있을까요? 우선 분석의 범위와 방향을 설정해 봅니다.

  • 챗GPT가 생성형 AI 중 최고의 데이터 분석 도구다. 따라서 챗GPT를 집중 분석한다. (당분간은 챗GPT가 프로그래밍 언어를 사용한 전문 분석을 따라가지 못하겠지만 우리의 관심은 생성형 AI에 쏠려 있으니까)

  • 지피터스의 특성이 “이런 것도 되더라” 성격이 강하므로 상용화된 서비스를 아우르는 전체 시장 분석 보다는 얼리 어답터들의 사용 사례, 기술 발전의 최전선이 어디에 그어져 있는지 위주로 분석한다.



챗GPT의 대표적 데이터 분석 기능: CI와 ADA

챗GPT의 데이터 분석 기능은 어떤 것이 있는지 알아봅니다.

대표적인 기능으로 CI(Code Interpreter 코드 인터프리터 기능)와 ADA(Advanced Data Analysis 고급 데이터 분석 기능)가 있습니다. 이 둘은 어떻게 다를까요?

CI는 다양한 프로그래밍 언어에서 코드를 이해하고 생성하며 설명합니다. 데이터 조작, 정제, 시각화 및 통계 분석을 위한 코드 스니펫을 생성함으로써 직접적으로 데이터 분석을 구현하는 도구입니다.

반면 ADA는 데이터에서 통찰력을 얻고 통계 개념을 설명하며 데이터 분석 방법론(또는 전략)을 제안합니다. 앞에 놓인 데이터 분석 작업에 가장 적합한 도구와 라이브러리가 무엇인지 또는 어떤 코드를 작성해야 하는지 결정하는 데 도움을 줄 수 있습니다.

실질적인 예를 든다면, 데이터 사이언스 프로젝트를 진행하고 있는 사용자는 ChatGPT의 고급 데이터 분석 기능을 사용하여 데이터에 가장 적합한 통계 테스트들을 결정한 다음, 코드 인터프리터 기능을 사용하여 그 테스트들을 구현하기 위한 템플릿 또는 예제 코드를 얻을 수 있습니다.

그런데 두 서비스는 모두 챗GPT와 별개의 서비스가 아니며, 챗GPT에 통합되어 있습니다.


  • CI 소개 추가

(1) 300여개의 파이썬 라이브러리가 저장되어 있음
: Seaborn, MatPlotlib, Scikit learn 등

(2) GPT 4가 코드를 생성하면 CI가 별도의 실행환경에서 실행하여 그 결과를 사용자에게 보여주는 방식. GPU가 없기 때문에 데이터가 많거나 복잡한 데이터 분석은 시간이 많이 걸려서 오류가 날 가능성 높음 —> 샘플링한 데이터로 코드를 테스트하며 작성 후 다운 받아서(.ipynb 파일) 외부 리소스로 대용량 데이터로 다시 모델링하는 방법을 사용한다면? —> 이럴 경우 데이터셋 크기 차이에 의해 발생하는 하이퍼파라미터 튜닝이나 알고리즘, 모델 구조 변경 등의 문제 있을 듯함

(3) Open AI 공식 문서 상으로 512MB까지 데이터 업로드 가능. 엑셀, CSV, PDF, PPTX, 파이썬, 루비 파일 첨부 가능함 platform.openai.com/docs/assistants/tools/supported-files



챗GPT의 데이터 분석의 다른 기능

챗GPT는 CI와 ADA 이외에도 데이터 분석을 지원하고 강화하는 다양한 기능과 능력을 갖고 있습니다. 자연어 처리(NLP), 데이터 분석 개념과 통계 방법에 대한 설명과 해석, 데이터 전처리에 대한 지침 제공, 머신러닝과 딥러닝 지원, 데이터 시각화, 데이터베이스 쿼리 등인데, 이들에 대해서는 별도로 알아보기 보다 데이터 분석의 절차를 따라가며 챗GPT에서 어떤 서비스가 제공되는지 확인하면서 소개하겠습니다.



데이터 분석 단계별 서비스

1. 문제 정의

제공 서비스: 비슷한 분석 목표의 예시를 제공하며 문제를 명확히 하는 데 도움을 줄 수 있는 질문을 합니다.

2. 데이터 수집

제공 서비스: ChatGPT는 직접 데이터를 수집하지는 않지만, 문제 정의에 기반한 데이터 소스와 수집 방법을 제안할 수 있습니다.

3. 데이터 클리닝 및 전처리

ADA 서비스: 결측치, 이상치, 데이터 세트의 오류를 식별하고 처리하는 방법에 대한 지침을 제공합니다.

CI 서비스: Pandas와 같은 라이브러리를 사용하여 데이터 클리닝 작업을 위한 코드 스니펫을 Python 언어로 생성합니다.

4. 탐색적 데이터 분석(EDA)

ADA 서비스: 데이터 탐색 방법, 변수 간의 관계 및 패턴 식별 방법에 대한 인사이트를 제공합니다.

CI 서비스: Matplotlib, Seaborn과 같은 시각화 라이브러리를 사용하여 히스토그램, 산점도, 상자 그림(box plot) 등을 그리는 코드 예제를 제공합니다.

5. 적절한 분석 기법/모델 선택

ADA 서비스: 데이터 및 분석 목표에 적합한 다양한 통계 테스트 및 기계 학습 모델을 설명합니다. 회귀 분석, 분류(classification), 군집화(clustering) 등을 포함합니다.

특히 머신 러닝(딥러닝 포함)에 있어서는 대규모 데이터셋에 대해 머신 러닝 모델을 선택하고 학습시키고 하이퍼파라미터를 튜닝하고 모델을 평가하는 데 대한 인사이트를 제공할 수 있으며, 이에는 특정 문제에 대한 올바른 알고리즘 선택, 피처 엔지니어링, 모델 최적화 및 모델 성능 지표 이해하는 방법이 포함됩니다. (추가 질문을 통해 파악한 내용: 알고리즘으로는 머신러닝의 선형 회귀, 의사결정 나무, SVM과 딥러닝의 CNN, RNN, 트랜스포머 등이 포함됨.)

6. 데이터 분석

CI 서비스: scikit-learn과 같은 라이브러리를 사용하여 통계 테스트를 적용하거나 머신 러닝 모델을 훈련시키기 위한 구체적인 코드를 생성합니다.

ADA 서비스: 통계 테스트 결과나 모델 출력을 해석하는 데 대한 조언을 제공합니다.

7. 결과 해석

ADA 서비스: 데이터 분석의 함의를 포함하여 통계적 유의성과 분석에서의 잠재적 편향을 이해하는 데 도움을 줍니다.

8. 결과 시각화 및 제시

CI 서비스: Plotly(사용해 본 바로는 에러 남)나 D3.js와 같은 라이브러리를 사용하여 결과를 효과적으로 제시하기 위한 시각화를 생성하는 코드를 제공합니다.

ADA 서비스: 비기술적 청중에게 발견 사항을 어떻게 설명할지, 주요 포인트를 강조하는 방법 등 보고서나 발표 구조에 대한 제안을 합니다.

9. 데이터 기반 의사결정

제공 서비스: ChatGPT는 직접 결정을 내릴 수는 없지만, 분석 결과를 바탕으로 가능한 행동 방안을 개요하고 의사결정 프레임워크를 제안할 수 있습니다.



데이터 분석의 영역/응용 분야별 서비스

이번에는 관점을 바꾸어 application별 서비스를 알아 보겠습니다.

1. 감정 분석 (Emotion Analysis)

ADA 서비스: 사용자가 제공한 텍스트 데이터에서 감정의 톤을 분석하고, 긍정적, 부정적 또는 중립적 감정을 식별하는 방법에 대한 가이드를 제공할 수 있습니다. 또한, NLP 기술을 사용하여 감정 분석을 수행하는 코드 예제를 생성할 수 있습니다.

2. 요약 (Summarizing)

NLP 기능: 대규모 문서나 데이터 세트의 핵심 내용을 요약하여 사용자가 중요한 정보를 빠르게 파악할 수 있도록 지원합니다. 이는 연구 논문, 뉴스 기사, 또는 긴 보고서의 주요 포인트를 추출하는 데 유용합니다.

3. 시각화 (Visualization)

CI 서비스: 데이터 시각화는 데이터 분석에서 중요한 부분입니다. ChatGPT는 Python의 Matplotlib, Seaborn, Plotly와 같은 라이브러리를 사용하여 데이터를 시각화하는 코드 스니펫을 생성할 수 있습니다. 이는 데이터의 패턴, 추세 및 상관 관계를 이해하는 데 도움을 줍니다.

4. 시장 분석 (Market Analysis)

ADA 서비스: 시장 동향, 소비자 행동, 경쟁 분석 등에 대한 인사이트를 제공합니다. ChatGPT는 시장 분석 보고서를 요약하거나 특정 산업 분야에 대한 데이터 분석을 지원하는 데 사용될 수 있습니다.

5. 예측 모델링 (Predictive Modeling)

ADA 및 CI 서비스: 과거 데이터를 바탕으로 미래의 이벤트나 결과를 예측하는 데 도움을 줄 수 있습니다. 예를 들어, 판매 예측, 고객 이탈 예측 등의 분석에 필요한 기계 학습 모델을 선택하고 구현하는 방법에 대한 가이드를 제공합니다.

6. 자연어 처리 (Natural Language Processing, NLP)

NLP 기능: 텍스트 데이터를 분석하여 키워드 추출, 텍스트 분류, 이름이 지정된 엔티티 인식(NER) 등을 수행할 수 있습니다. 이는 고객 서비스 티켓, 제품 리뷰, 소셜 미디어 게시물 분석에 유용합니다.

7. 데이터 클리닝 및 전처리 (Data Cleaning and Preprocessing)

CI 서비스: 데이터 분석을 위해 데이터를 정제하고 준비하는 과정에서 자주 발생하는 문제를 해결하는 데 필요한 코드 스니펫을 제공합니다. 이는 누락된 데이터 처리, 이상치 제거, 데이터 형식 변환을 포함할 수 있습니다.



데이터 분석에서 생성형 AI 사용 추세

GPTs 중 2억 개의 학술 논문을 검색한다는 Consensus에게 최신 트렌드를 물어 다음과 같은 답변을 받았습니다. 이 부분은 각 항목별로 좀 더 의미를 파악할 필요가 있어 보입니다.

***

데이터 분석에서 생성형 AI 사용의 추세는 다양한 분야에서 중요한 발전과 다양한 응용으로 특징 지어집니다. 최근 연구 논문에서 얻은 주요 통찰력을 종합하면 다음과 같습니다:

1. 산업용 분산 AI: 생성형 AI는 데이터 수집 및 분석을 최적화함으로써 산업 공정을 재구성하고 있으며, 실시간 처리 및 의사 결정을 위해 알고리즘이 직접 기계("에지"에서)에 실행되는 분산 AI로의 전환을 통해 AI를 산업 필요에 맞게 조정하는 추세입니다. 이러한 추세는 4차 산업 혁명의 주요 플레이어로서의 AI 기술을 적응하고 촉진하는 데 중요합니다. [(Mazzei, 2020)](https://consensus.app/papers/filling-scientific-research-artificial-intelligence-mazzei/4256c51bfd015262962752331379f878/?utm_source=chatgpt).

2. 비즈니스에서의 생성형 AI: 생성형 AI는 혁신에 상당한 잠재력을 가지고 있지만, 딥페이크 생성과 같은 비즈니스 맥락에서의 오용은 윤리적 우려를 제기합니다. 이는 생성 기술의 책임 있는 개발 및 사용 필요성을 강조합니다. [(Houde et al., 2020)](https://consensus.app/papers/business-misuse-cases-generative-houde/52d79a66b6285e4fa0ed08b6fa56c82c/?utm_source=chatgpt).

3. 스마트 시티 및 인간 행동 분석에서의 AI: 생성형 AI는 도시 계획, 보안 및 교통에 대한 통찰력을 제공함으로써 도시 환경에 대한 확장 가능한 모니터링에 기여하고 있습니다. 이는 GPS 데이터와 같은 저비용 센서 대안을 사용하여 인간 활동에 대한 깊은 이해를 가능하게 합니다. [(Qarout et al., 2020)](https://consensus.app/papers/modelling-unsupervised-analysis-human-behaviour-smart-qarout/ef6682c3b0625efabbd0a857343f14b5/?utm_source=chatgpt).

4. 과학적 기계 학습(SciML): 과학 연구에서 생성형 AI의 통합은 대규모 실험 데이터 세트 분석 방식을 혁신하여 과학 데이터로부터 의미 있는 통찰력을 추출하는 방법을 변화시키고 있습니다. [(Thiyagalingam et al., 2021)](https://consensus.app/papers/scientific-machine-learning-benchmarks-thiyagalingam/e7e2b2faf32e53c68b61ea73e19b099d/?utm_source=chatgpt).

5. 헬스케어에서의 생성형 AI: 생성적 적대 신경망(GANs) 및 합성(synthetic) 환자 데이터의 개발은 임상 연구, 데이터 프라이버시 및 의료 교육을 혁신할 잠재력을 제공하며, 연구 능력을 향상시키고 환자 데이터 보호를 통해 헬스케어를 혁명화할 수 있습니다. [(Arora & Arora, 2022)](https://consensus.app/papers/networks-patient-data-challenges-future-perspectives-arora/c5c1d6d948af5c53ae41fee34e73b51d/?utm_source=chatgpt).

6. 블록체인 및 빅 데이터 추세: AI와 블록체인, 빅 데이터 기술의 융합은 스마트 헬스케어, 도시, 교통 등에서 새로운 기회를 창출하며, 생성형 AI가 효율성과 혁신을 주도하는 산업 간 잠재력을 보여줍니다. [(Tyagi, 2021)](https://consensus.app/papers/emerging-trends-using-blockchain-data-tyagi/c35884f6c5cd5001aea4fc0890471ccc/?utm_source=chatgpt).

7. 인터넷과의 생성형 AI 결합: 생성적 AI 도구의 빠른 채택은 인터넷의 미래와 데이터 품질에 미치는 영향에 대한 질문을 제기했습니다. 이러한 생성형 AI가 생성하는 대량의 데이터가 인터넷과의 상호 작용을 통해 실제 및 AI 생성 데이터의 혼합으로 훈련됨에 따라 그들의 진화와 편향 가능성에 영향을 줄 수 있습니다. [(Martínez Ruiz de Arcaute et al., 2023)](https://consensus.app/papers/combining-generative-artificial-intelligence-internet-arcaute/5238cdb57dc75444bee3abaae3493923/?utm_source=chatgpt).

결론적으로, 데이터 분석에서 생성적 AI 사용의 추세는 지능적이고, 효율적이며, 개인화된 솔루션을 향한 변혁적 잠재력을 강조하는 다양한 분야에서의 확장 역할을 특징으로 합니다.

더 많은 AI 기반 통찰력을 위해 [consensus.app](https://consensus.app/?utm_source=chatgpt)을 방문하세요.



생명 과학과 데이터 분석

위에서 헬스 케어 이야기가 잠깐 나왔는데, 생명 과학 분야의 회사들이 데이터 분석을 활용하면 어떤 도움을 받을 수 있는지 알아봅니다. Dataiku라는 AI, 데이터 분석 서비스 회사의 홈페이지에 올라와 있는 글을 요약한 것입니다.

***

데이터 분석(data analytics)은 방대한 데이터를 활용하여 혁신, 효율성 및 환자 결과를 촉진함으로써 생명 과학 분야를 근본적으로 변화시키고 있습니다. 다음은 데이터 분석이 중요한 영향을 미치고 있는 세 가지 영역과 그 작동 메커니즘에 대한 설명입니다:


1. 약물 발견 및 개발

데이터 분석은 예측 모델링과 시뮬레이션 기술을 통해 약물 발견과 개발을 가속화합니다. 생물학적 데이터를 분석함으로써, 회사들은 전통적인 방법보다 훨씬 빠르게 잠재적인 약물 후보를 식별할 수 있습니다. 머신러닝 모델은 다양한 화합물이 생물학적 타깃과 어떻게 상호작용할지 예측할 수 있어서, 비용이 많이 들고 시간이 오래 걸리는 실험실 실험의 필요성을 줄일 수 있습니다. 이는 발견 단계를 가속화할 뿐만 아니라 약물 형식을 최적화하고 개발 과정 초기에 잠재적인 부작용을 예측하는 데 도움이 됩니다.


2. 개인 맞춤형 의학

개인 맞춤형 의학에서 데이터 분석은 유전 정보와 임상 데이터를 분석하여 환자 개개인에게 맞춤화된 치료법을 제공하는 데 사용됩니다. 빅 데이터 도구를 활용함으로써, 생명 과학 회사들은 유전 변이와 약물 반응 사이의 패턴과 상관관계를 식별할 수 있습니다. 이러한 심도 있는 분석을 통해, 일률적인 치료법보다 훨씬 효과적이고 부작용이 적은 개인화된 치료 계획을 개발할 수 있습니다. 여기에 사용되는 메커니즘은 유전체학을 전자 건강 기록과 통합하여 매우 개인화된 건강 관리 솔루션을 제공하는 것입니다.


3. 운영 효율성 및 공급망 관리(판매)

데이터 분석은 예측 분석과 실시간 모니터링을 통해 운영 효율성과 공급망 관리를 개선합니다. 과거 데이터를 분석함으로써, 회사들은 수요를 더 정확하게 예측하고, 생산 일정을 최적화하며, 낭비를 줄일 수 있습니다. 예측 분석은 글로벌 배송 데이터, 기상 예보, 지정학적 이벤트의 패턴을 분석하여 공급망 중단을 예상할 수 있습니다. 실시간 데이터 분석을 통해 회사들은 수요 변화나 공급망 문제에 빠르게 대응할 수 있으며, 이를 통해 의약품과 치료가 환자에게 더 신뢰성 있고 효율적으로 도달하도록 할 수 있습니다.


각각의 영역에서, 데이터 분석은 혁신과 효율성의 촉매제로 작용하여, 생명 과학 회사들이 포괄적인 데이터 분석을 기반으로 한 정보에 입각한 결정을 내릴 수 있게 합니다. 이는 더 빠른 약물 개발 주기, 더 효과적인 치료법, 그리고 환자 치료와 결과를 현저히 개선할 수 있는 최적화된 운영을 가능하게 합니다.



데이터 분석 사례와 시사점

마지막으로 유튜브에 올라와 있는 데이터 분석 사례 2개를 소개합니다.

첫 번째 동영상은 캐글 dataset으로서 월마트의 2010-2022 주별 판매금액을 학습하여 예측하는 작업입니다. 데이터 행 수가 40만개가 넘습니다.


두 번째 동영상은 IBM Watson 마케팅 관련한 고객생애가치(CLV) 분석 및 예측입니다. 데이터 행 수가 9134개로 훨씬 작습니다.


두 사례와 제가 ‘서울 지하철 하차 인원’을 챗GPT로 분석하여 시각화했던 경험으로부터 얻은 시사점은 다음과 같습니다.


1. 챗GPT가 프롬프트 지시사항을 어기는 일이 종종 발생하여 주의가 필요합니다.

     (Hallucination과 비슷, 아무런 메시지 없이 자연스럽게 수행함)

     - 양의 상관관계를 갖는 특성만 넣으라고 했는데, 전부 넣어서 학습하다가 에러
     - 선형그래프를 그려 달라고 했는데 막대 그래프를 그림

     * 개인적 경험: 지표가 10개인 꺾은선 그래프를 그려달라고 했는데, 세어 보니 8개

 2. GPU가 없어서 계산용량이 많이 필요한 분석은 수행할 수 없습니다.

     - 40만 개 행 데이터셋에 대해 랜덤 포레스트(100개 이상의 의사결정나무의 결과를 합침) 학습 시 에러 발생
       --> 사례에서는 10%만으로 제한하여 성공.

 3. 데이터 분석 지식이 없는 사람도 기본 분석은 가능하지만, 지식이 있는 사람이 해야 정확하고 다양한 분석이 가능합니다. 하지만 모델의 예측 성능이 좋지는 않은 듯합니다.

    (1) 기본 분석
- 전처리(결측치 처리, 데이터 타입 확인 및 변경, 이상치 처리, 불필요한 열 제거)
- 원핫 인코딩
- 독립 – 종속변수간 상관관계 분석
- 시각화
- 시계열 분석(추세, 계절성, 주기성 분석, 시계열 분해)
- MSE, 결정 계수(R2 score) 확인

    (2) 지식이 있어야만 가능할 분석
     - 주별 판매액이 department별로 쪼개져 있어서 하나로 합쳐서 새로운 특성 생성
     - 계절성 분석을 위해 푸리에 한쌍(FourierSin, FourierCos)을 만들어 달라고 해서 특성에 추가
    (3) 그럼에도 모델의 예측 성능은 그리 좋게 나오지는 않았음(두 번째 사례)
        평균제곱오차(MSE)가 크고(43M), 결정 계수가 0.152로 낮아서 모델의 설명력은 부족함 (유튜브 화면에 고객생애가치 CLV raw data가 몇 개 보이는데, 5천~8천 정도이며 이를 제곱하면 대략 50M 정도이므로, 꽤 큰 MSE임)


이상 정리를 마칩니다. 아직 보완할 점이 많습니다.

긴 글 읽느라 고생하셨습니다.

6
3개의 답글

👉 이 게시글도 읽어보세요

모집 중인 AI 스터디