분석 범위와 방향
생성형 AI를 데이터 분석에 어떻게 활용하고 있을까요? 우선 분석의 범위와 방향을 설정해 봅니다.
챗GPT가 생성형 AI 중 최고의 데이터 분석 도구다. 따라서 챗GPT를 집중 분석한다. (당분간은 챗GPT가 프로그래밍 언어를 사용한 전문 분석을 따라가지 못하겠지만 우리의 관심은 생성형 AI에 쏠려 있으니까)
지피터스의 특성이 “이런 것도 되더라” 성격이 강하므로 상용화된 서비스를 아우르는 전체 시장 분석 보다는 얼리 어답터들의 사용 사례, 기술 발전의 최전선이 어디에 그어져 있는지 위주로 분석한다.
챗GPT의 대표적 데이터 분석 기능: CI와 ADA
챗GPT의 데이터 분석 기능은 어떤 것이 있는지 알아봅니다.
대표적인 기능으로 CI(Code Interpreter 코드 인터프리터 기능)와 ADA(Advanced Data Analysis 고급 데이터 분석 기능)가 있습니다. 이 둘은 어떻게 다를까요?
CI는 다양한 프로그래밍 언어에서 코드를 이해하고 생성하며 설명합니다. 데이터 조작, 정제, 시각화 및 통계 분석을 위한 코드 스니펫을 생성함으로써 직접적으로 데이터 분석을 구현하는 도구입니다.
반면 ADA는 데이터에서 통찰력을 얻고 통계 개념을 설명하며 데이터 분석 방법론(또는 전략)을 제안합니다. 앞에 놓인 데이터 분석 작업에 가장 적합한 도구와 라이브러리가 무엇인지 또는 어떤 코드를 작성해야 하는지 결정하는 데 도움을 줄 수 있습니다.
실질적인 예를 든다면, 데이터 사이언스 프로젝트를 진행하고 있는 사용자는 ChatGPT의 고급 데이터 분석 기능을 사용하여 데이터에 가장 적합한 통계 테스트들을 결정한 다음, 코드 인터프리터 기능을 사용하여 그 테스트들을 구현하기 위한 템플릿 또는 예제 코드를 얻을 수 있습니다.
그런데 두 서비스는 모두 챗GPT와 별개의 서비스가 아니며, 챗GPT에 통합되어 있습니다.
CI 소개 추가
(1) 300여개의 파이썬 라이브러리가 저장되어 있음
: Seaborn, MatPlotlib, Scikit learn 등
(2) GPT 4가 코드를 생성하면 CI가 별도의 실행환경에서 실행하여 그 결과를 사용자에게 보여주는 방식. GPU가 없기 때문에 데이터가 많거나 복잡한 데이터 분석은 시간이 많이 걸려서 오류가 날 가능성 높음 —> 샘플링한 데이터로 코드를 테스트하며 작성 후 다운 받아서(.ipynb 파일) 외부 리소스로 대용량 데이터로 다시 모델링하는 방법을 사용한다면? —> 이럴 경우 데이터셋 크기 차이에 의해 발생하는 하이퍼파라미터 튜닝이나 알고리즘, 모델 구조 변경 등의 문제 있을 듯함
(3) Open AI 공식 문서 상으로 512MB까지 데이터 업로드 가능. 엑셀, CSV, PDF, PPTX, 파이썬, 루비 파일 첨부 가능함 platform.openai.com/docs/assistants/tools/supported-files
챗GPT의 데이터 분석의 다른 기능
챗GPT는 CI와 ADA 이외에도 데이터 분석을 지원하고 강화하는 다양한 기능과 능력을 갖고 있습니다. 자연어 처리(NLP), 데이터 분석 개념과 통계 방법에 대한 설명과 해석, 데이터 전처리에 대한 지침 제공, 머신러닝과 딥러닝 지원, 데이터 시각화, 데이터베이스 쿼리 등인데, 이들에 대해서는 별도로 알아보기 보다 데이터 분석의 절차를 따라가며 챗GPT에서 어떤 서비스가 제공되는지 확인하면서 소개하겠습니다.
데이터 분석 단계별 서비스
1. 문제 정의