반응형
Pandas_profiling
I. Pandas Profiling
머신 러닝 등 데이터를 이용하는 모든 활동에서 선행되는 것은 보유한 데이터의 성격과 변수간 관계 파악 등 분석 과정과 전처리 과정입니다. 오늘 주제인 pandas profiling 은 한 줄의 명령어로 빠르게 데이터 EDA를 가능하게 해주는 라이브러리입니다.
II. Pandas Profiling 사용
1. 설치
pip install pandas_profiling
2. 사용하기
- google colab 환경에서 사용한 예시입니다.
profile_report()
, to_file()
이 두가지 메소드만 기억하시면 됩니다.
패키지 import 후 원하는 데이터를 가져와서 profile_report()
를 사용하면 됩니다.
파일로 저장하고 싶을 땐 to_file("name.json"or"name.html")
1) Overview
overview 에서는 데이터의 전체 갯수부터 결측값과 변수의 갯수, 타입별 갯수 등 전반적인 부분과 변수간 상관관계를 확인할 수 있습니다.
2) Variables
variables 에서는 각 변수별 고유값/결측값의 비율과 개수, 평균과 최대최소, 분포 등 디테일한 정보를 제공합니다.
3) Interactions/Correlations
interactions/Correlations 에서는 변수별 상관 관계를 확인할 수 있도록 도식화하여 제공됩니다.
4) Missing values
변수별 결측치에 대한 정보를 제공합니다. 우측 세로축이 데이터의 갯수, 좌측 세로축이 결측비율을 나타냅니다.
5) Sample
데이터 셋의 첫 10행과 마지막 10행을 보여줍니다. 코드 상에서 head(), tail() 을 사용해서 굳이 데이터를 확인할 필요가 없습니다.
반응형