파이썬 판다스 데이터 고유값 찾기

데이터에 고유값이 무엇이 있는지 알고 싶다면 unique

총 고유값의 수가 몇 개인지 알고 싶다면 nunique

값별로 데이터의 개수를 알고 싶다면 value_counts


import seabornas sns

# 예시데이터
planets = sns.load_dataset('planets')
planets.sample(5)

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/497b9d89-256a-4e6e-9b73-831d200aaeb2/Untitled.png

예시데이터로 seaborn의 planets을 불러왔다.

1. column의 고유값 : unique()

# 고유값
df['col'].unique()

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/ae6b5435-70cd-4095-b8f1-4e5005f93fef/Untitled.png

데이터가 무엇으로 구성되어있는지 보고 싶다면 .unique()로 열의 고유값을 볼 수 있다.

2. column별 고유값의 개수 : nunique()

# 고유값의 수
df.nunique()

# 고유값의 수 - 결측값 포함
df.nunique(dropna =False)

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/8a7901fe-41f7-4ae0-8c94-8719ffedf614/Untitled.png

각 column에 고유값이 몇 개 있는지 알고싶다면 .nunique()를 사용하면 된다.

그냥 nunique()를 사용하면 결측값은 하나의 값으로 보지 않는다. 결측값도 하나의 값으로 카운트 하려면 dropna=False를 추가해주면 된다. 아무것도 입력하지 않으면 dropna=True가 된다.