Pandas Profiling은 오픈 소스 파이썬 모듈로, 주어진 데이터프레임에 대한 Dataset Info, Variable Types, 변수 간의 관계 등을 자동으로 분석해줍니다.
Streamlit에서 Pandas Profiling 기능을 사용할 때는 streamlit-pandas-profiling 패키지를 설치해야 합니다.
설치
pip install streamlit-pandas-profiling
코드
import pandas as pd
import pandas_profiling
import streamlit as st
from streamlit_pandas_profiling import st_profile_report
df = pd.read_csv("https://storage.googleapis.com/tf-datasets/titanic/train.csv")
예시로는 타이타닉 데이터셋을 사용했지만 물론 외부 csv 파일을 불러오지 않고 직접 만든 데이터프레임을 사용해도 됩니다.
pr = df.profile_report()
st_profile_report(pr)
효과
Streamlit은 주로 머신러닝 모델을 시각화하는 용도로 사용되는 경우가 많은데, 이 때 사용한 데이터셋이 reliable한지 검증하는 용도로 사용할 수 있습니다.
예를 들어, 위의 Pandas Profiling Report에서는 Missing cells와 Duplicate rows가 0입니다.
따라서 데이터셋이 올바르게 전처리되었고, 머신러닝 모델의 output과 시각화한 그래프 등이 믿을 만하다는 것을 알 수 있습니다.
'Streamlit' 카테고리의 다른 글
아나콘다(Anaconda)로 스트림릿(Streamlit) 간단하게 설치하기 (0) | 2022.01.29 |
---|