본문 바로가기

Streamlit

Pandas Profiling 판다스 프로파일링 Streamlit에서 구현하기

Pandas Profiling은 오픈 소스 파이썬 모듈로, 주어진 데이터프레임에 대한 Dataset Info, Variable Types, 변수 간의 관계 등을 자동으로 분석해줍니다.

 

Streamlit에서 Pandas Profiling 기능을 사용할 때는 streamlit-pandas-profiling 패키지를 설치해야 합니다. 

 

 


 

설치

 

pip install streamlit-pandas-profiling

 

 

코드

 

import pandas as pd
import pandas_profiling
import streamlit as st

from streamlit_pandas_profiling import st_profile_report

 

df = pd.read_csv("https://storage.googleapis.com/tf-datasets/titanic/train.csv")

 

예시로는 타이타닉 데이터셋을 사용했지만 물론 외부 csv 파일을 불러오지 않고 직접 만든 데이터프레임을 사용해도 됩니다.

 

pr = df.profile_report()
st_profile_report(pr)

 

 

 

효과

 

Streamlit은 주로 머신러닝 모델을 시각화하는 용도로 사용되는 경우가 많은데, 이 때 사용한 데이터셋이 reliable한지 검증하는 용도로 사용할 수 있습니다. 

 

 

예를 들어, 위의 Pandas Profiling Report에서는 Missing cells와 Duplicate rows가 0입니다.

따라서 데이터셋이 올바르게 전처리되었고, 머신러닝 모델의 output과 시각화한 그래프 등이 믿을 만하다는 것을 알 수 있습니다.