파이썬 데이터 전처리 총정리

생활정보

파이썬 데이터 전처리 총정리

Trevor90 2023. 11. 17. 09:40

728x90

안녕하세요
오늘은 파이썬 데이터 분석에서
데이터 전처리 방법을 정리해 보겠습니다.
싸이킷런과 판다스 패키지를 사용합니다.

1. 결측치 최빈값으로 채워넣기

# 결측치 최빈값으로 채워 넣기
m = df['colname'].mode()[0]
df['colname'] = df['colname'].fillna(m)

2. 특정 컬럼 결측치 있는행 삭제

df=df.dropna(subset = ['colname1', 'colname2'])

3. 특정 컬럼 삭제

df = df.drop(['colname1'], axis=1)

4. 중복값 제거

df = df.drop_duplicates()

5. 스케일링

아래 코드는 최소최대 스케일링입니다.
다른 스케일링은 MinMaxScaler() 대신
해당하는 메소드를 입력하세요

from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
train['colname'] = scaler.fit_transform(train['colname'])
test['colname'] = scaler.transform(test['colname'])

표준화 : StandardScaler()
로버스트 : RobustScaler()

6. 로그 변환

import numpy as np
df['colname'] = np.log1p(df['colname'])

7. 인코딩

7-1. 라벨인코딩

# 1. scikit learn 패키지 사용
cols = ['colname1', 'colname2', ...]
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
for col in cols:
    train[col] = le.fit_transform(train[col])
    test[col] = le.transform(test[col])

#2. categorical 메서드 사용
df['colname'] = df['colname'].astype(category).cat.codes

7-2. 원-핫 인코딩

import pandas as pd
df['colname'] = pd.get_dummies(df['colname'])

8. 데이터 합치기

import pandas as pd
df_new = pd.concat([df1, df2], axis=1)

지금까지 파이썬 데이터 분석 전처리 방법을
총정리해보았습니다.

728x90