PandasAI는 자연어로 데이터에 질문할 수 있는 혁신적인 파이썬 라이브러리입니다. 이 도구는 데이터 분석과 처리 과정을 크게 간소화하며, 다음과 같은 포괄적인 기능을 제공합니다:
자연어 쿼리: 복잡한 코딩 없이 자연어로 데이터에 대한 질문을 할 수 있습니다.
데이터 시각화: 그래프와 차트를 통해 데이터를 직관적으로 표현합니다.
데이터 정제: 누락된 값을 처리하고 데이터셋을 정리합니다.
품질 향상: 특성 생성을 통해 데이터의 품질을 개선합니다.
다양한 데이터 활용: CSV, XLSX, PostgreSQL, MySQL, BigQuery, Databrick, Snowflake 등과 같은 다양한 데이터 소스에 연결합니다.
LLM 통합: 다양한 대규모 언어 모델(LLM)과 연동하여 데이터 처리 능력을 향상시킵니다.
간단히 말해, PandasAI는 Pandas 라이브러리에 AI 기능을 추가한 것으로, 데이터 분석 과정의 효율성을 크게 높입니다.
이번에는 PandasAI를 활용한 실제 데이터 분석 및 시각화 과정을 상세히 살펴볼 것입니다. 특히, OpenAI의 GPT 모델과 Ollama를 이용한 로컬 LLM을 PandasAI와 연동하는 방법에 초점을 맞추어, 다양한 LLM 데이터 처리 방식의 특징과 장단점을 비교 분석할 것입니다.
이를 통해 독자들은 PandasAI의 다양한 기능과 활용 방법을 이해하고, 자신의 데이터 분석 프로젝트에 가장 적합한 LLM 데이터 처리 방식을 선택할 수 있는 인사이트를 얻게 될 것입니다.
준비
계정생성
PandasAI 공식 사이트에 접속하여 계정을 만듭니다.
로그인 후 API 키를 확인합니다.
테스트용 데이터 준비
ChatGPT에서 간단하게 사용할 임시 데이터를 생성했습니다.
데이터 분석을 위해 두 개의 CSV 파일을 준비했습니다.
Employee_Info.csv: 직원 정보
Employee_Salary.csv: 급 여 정보
PandasAI 기본 모델
PANDASAI_API_KEY 설정
PANDASAI_API_KEY 환경변수 사용을 위해 dotenv 패키지를 사용했습니다. (PANDASAI_API_KEY 를 직접 입력해도 상관 없습니다.)
dotenv 설치
pip install python-dotenv.env 파일입니다.
PANDASAI_API_KEY='pandasai-api-key'환경설정을 불러오는 부분입니다.
from dotenv import load_dotenv
load_dotenv()PandasAI 및 필요한 라이브러리 설치
numpy 버전을 구버전으로 유지하기 위해 먼저 설치를 하고 PandasAI를 설치한 후 PyYAML을 설치합니다.
(차후 버그가 수정되면 numpy를 별도로 설치하는 과정이 필요 없어질 수 있습니다.)
pip install numpy==1.26.4
pip install pandasai
pip install PyYAML