파이썬 판다스 원핫인코더, get_dummies

OneHotEncoder()

카테고리형 Feature들을 0과 1 로 분리 해준다.

Feature들의 수를 늘려 트레이닝의 복잡도를 올려준다.

!pip install category_encoders

인스톨 후 런타임 재시작 하고 실행 하면 된다.

from category_encoders import OneHotEncoder

encoder = OneHotEncoder(use_cat_names=True)   
# use_cat_names feature내의 변수 이름을 적을 것인지.
X_train_encoded = encoder.fit_transform(X_train)
X_validation_encoded = encoder.fit_transform(X_validation)
X_test_encoded = encoder.fit_transform(X_test)
X_train_encoded

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/54303298-6080-4fac-9a03-338722d31384/Untitled.png

pd.get_dummies()

import numpy as np 
import pandas as pd

season = pd.DataFrame({'season':['spring', 'summer', 'fall', 'winter', np.nan]})

# 결측값 처리도 가능
pd.get_dummies(season['season'], dummy_na=True)

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/0b16ed86-daa2-4a49-99a5-f6dd534fccab/Untitled.png