Published 2020. 10. 8. 13:48

[Python/Data]Pandas Profiling을 활용한 쉽고 빠른 Python EDA

Pandas_profiling

머신 러닝 등 데이터를 이용하는 모든 활동에서 선행되는 것은 보유한 데이터의 성격과 변수간 관계 파악 등 분석 과정과 전처리 과정입니다. 오늘 주제인 pandas profiling 은 한 줄의 명령어로 빠르게 데이터 EDA를 가능하게 해주는 라이브러리입니다.

pip install pandas_profiling

profile_report(), to_file() 이 두가지 메소드만 기억하시면 됩니다.

스크린샷 2020-10-08 오후 12 05 29

패키지 import 후 원하는 데이터를 가져와서 profile_report() 를 사용하면 됩니다.
파일로 저장하고 싶을 땐 to_file("name.json"or"name.html")

overview 에서는 데이터의 전체 갯수부터 결측값과 변수의 갯수, 타입별 갯수 등 전반적인 부분과 변수간 상관관계를 확인할 수 있습니다.

스크린샷 2020-10-08 오후 12 06 52

스크린샷 2020-10-08 오후 12 07 04

스크린샷 2020-10-08 오후 12 07 16

variables 에서는 각 변수별 고유값/결측값의 비율과 개수, 평균과 최대최소, 분포 등 디테일한 정보를 제공합니다.

스크린샷 2020-10-08 오후 12 19 08

스크린샷 2020-10-08 오후 12 19 29

interactions/Correlations 에서는 변수별 상관 관계를 확인할 수 있도록 도식화하여 제공됩니다.

스크린샷 2020-10-08 오후 12 13 41

스크린샷 2020-10-08 오후 12 15 32

변수별 결측치에 대한 정보를 제공합니다. 우측 세로축이 데이터의 갯수, 좌측 세로축이 결측비율을 나타냅니다.

스크린샷 2020-10-08 오후 12 22 23

데이터 셋의 첫 10행과 마지막 10행을 보여줍니다. 코드 상에서 head(), tail() 을 사용해서 굳이 데이터를 확인할 필요가 없습니다.

스크린샷 2020-10-08 오후 12 20 40