언어/데이터 마이닝
Pandas 기초
수타.
2023. 5. 31. 19:32
- 먼저 colab에서 한글을 사용하기 위한 코드이다. (실행 후 런타임을 재실행 해야함)
!sudo apt-get install -y fonts-nanum
!sudo fc-cache -fv
!rm ~/.cache/matplotlib -rf
- 대신쓰려면 다음과 같다.
!pip install koreanize-matplotlib #설치
import koreanize_matplotlib #matplotlib import 하고 하면됨
- 그리고 pandas와 시각화를 위한 matplotlib도 import 시켜준다.
import pandas as pd
import matplotlib.pyplot as plt
plt.rc('font',family = 'NanumBarunGothic') #한글
- 그리고 csv데이터를 불러온다. 이때 경로에 유의 하며 안에 한글이 들어가 있을경우 encoding 을 'euc-kr' 또는 'cp949'로 해준다.
df = pd.read_csv('/content/drive/MyDrive/jejudata/ftour.csv',encoding='euc-kr') #cp949
- head 함수를 통해 상위 n개의 데이터를 확인 가능하며 (n개는 parameter로 조정, dafault는 5개) info 함수와 describe 함수를 통해 데이터의 성질등을 파악할 수 있다. (개수등)
df.head()
df.info()
df.describe()
- 이때 데이터의 결측지를 확인하는 것이 좋은데, 이땐 pandas 에 isnull 함수를 사용한다.
sum(pd.isnull(df))
- df['column'] 을 통해 각 column에 접근이 가능하며, 이때 중복된 값을 제외한 값을 원하면 unique()함수를 사용한다.
df['nat'].unique()
- groupby는 같은 값을 하나로 묶어 통계 또는 집계결과를 얻을 수있는 함수인데,
다음과 같이 groupby 함수의 역할을 알 수 있다.
- 각 나라별 관광객 수를 표로 만들어 가시화를 시키면 다음과 같다.
df_count_sort.plot(kind='bar')
plt.show()