파이썬 데이터 전처리 총정리

생활정보 2023. 11. 17. 09:40

728x90

안녕하세요
오늘은 파이썬 데이터 분석에서
데이터 전처리 방법을 정리해 보겠습니다.
싸이킷런과 판다스 패키지를 사용합니다.

1. 결측치 최빈값으로 채워넣기

# 결측치 최빈값으로 채워 넣기
m = df['colname'].mode()[0]
df['colname'] = df['colname'].fillna(m)

2. 특정 컬럼 결측치 있는행 삭제

df=df.dropna(subset = ['colname1', 'colname2'])

3. 특정 컬럼 삭제

df = df.drop(['colname1'], axis=1)

4. 중복값 제거

df = df.drop_duplicates()

5. 스케일링

아래 코드는 최소최대 스케일링입니다.
다른 스케일링은 MinMaxScaler() 대신
해당하는 메소드를 입력하세요

from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
train['colname'] = scaler.fit_transform(train['colname'])
test['colname'] = scaler.transform(test['colname'])

표준화 : StandardScaler()
로버스트 : RobustScaler()

6. 로그 변환

import numpy as np
df['colname'] = np.log1p(df['colname'])

7. 인코딩

7-1. 라벨인코딩

# 1. scikit learn 패키지 사용
cols = ['colname1', 'colname2', ...]
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
for col in cols:
    train[col] = le.fit_transform(train[col])
    test[col] = le.transform(test[col])

#2. categorical 메서드 사용
df['colname'] = df['colname'].astype(category).cat.codes

7-2. 원-핫 인코딩

import pandas as pd
df['colname'] = pd.get_dummies(df['colname'])

8. 데이터 합치기

import pandas as pd
df_new = pd.concat([df1, df2], axis=1)

지금까지 파이썬 데이터 분석 전처리 방법을
총정리해보았습니다.

728x90

'생활정보' 카테고리의 다른 글

즐거운 오늘 (6)	2023.11.27
크리스마스씰 키링 리뷰 앤서니 브라운과 함께하는 이웃돕기 (10)	2023.11.23
부동산 중개수수료 얼마일까? 누가 낼까? (2)	2023.11.16
펭하! 귀여운 펭수 차량용 디퓨저 리뷰 (0)	2023.11.08
카카오뱅크 한달적금 후기 - 8% 이자! 몇원이나 받을 수 있을까? (2)	2023.11.03

ABOUT ME

트레버의 정글 생존기 트레버의 정글 생존기

1. 결측치 최빈값으로 채워넣기

2. 특정 컬럼 결측치 있는행 삭제

3. 특정 컬럼 삭제

4. 중복값 제거

5. 스케일링

6. 로그 변환

7. 인코딩

7-1. 라벨인코딩

7-2. 원-핫 인코딩

8. 데이터 합치기

'생활정보' 카테고리의 다른 글

티스토리툴바

ABOUT ME

1. 결측치 최빈값으로 채워넣기

2. 특정 컬럼 결측치 있는행 삭제

3. 특정 컬럼 삭제

4. 중복값 제거

5. 스케일링

6. 로그 변환

7. 인코딩

7-1. 라벨인코딩

7-2. 원-핫 인코딩

8. 데이터 합치기

'생활정보' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바