수타. 2023. 5. 31. 19:32
  • 먼저 colab에서 한글을 사용하기 위한 코드이다. (실행 후 런타임을 재실행 해야함)

 

!sudo apt-get install -y fonts-nanum
!sudo fc-cache -fv
!rm ~/.cache/matplotlib -rf

 

  • 대신쓰려면 다음과 같다.
!pip install koreanize-matplotlib #설치
import koreanize_matplotlib #matplotlib import 하고 하면됨

 

  • 그리고 pandas와 시각화를 위한 matplotlib도 import 시켜준다. 
import pandas as pd
import matplotlib.pyplot as plt

plt.rc('font',family = 'NanumBarunGothic') #한글

 

  • 그리고 csv데이터를 불러온다. 이때 경로에 유의 하며 안에 한글이 들어가 있을경우 encoding 을 'euc-kr' 또는 'cp949'로 해준다.
df = pd.read_csv('/content/drive/MyDrive/jejudata/ftour.csv',encoding='euc-kr') #cp949

결과값

 

  • head 함수를 통해 상위 n개의 데이터를 확인 가능하며 (n개는 parameter로 조정, dafault는 5개)                                     info 함수와 describe 함수를 통해 데이터의 성질등을 파악할 수 있다. (개수등)
df.head()
df.info()
df.describe()

 

  • 이때 데이터의 결측지를 확인하는 것이 좋은데, 이땐 pandas 에 isnull 함수를 사용한다.
sum(pd.isnull(df))

 

  • df['column'] 을 통해 각 column에 접근이 가능하며, 이때 중복된 값을 제외한 값을 원하면 unique()함수를 사용한다.
df['nat'].unique()

결과값

  • groupby는 같은 값을 하나로 묶어 통계 또는 집계결과를 얻을 수있는 함수인데, 

다음과 같이 groupby 함수의 역할을 알 수 있다.

  • 각 나라별 관광객 수를 표로 만들어 가시화를 시키면 다음과 같다.
df_count_sort.plot(kind='bar')
plt.show()