导航菜单

数据挖掘/数据预处理
课程进度 13% · 第2/10章2/10章 · 标签 1/3
1

数据清洗

缺失值处理

python
1
import pandas as pd
2
df = pd.read_csv("data.csv")
3
df.dropna() # 删除缺失值
4
df.fillna(df.mean()) # 均值填充
5
df.fillna(method='ffill') # 前向填充

异常值处理

python
1
# Z-score方法
2
from scipy import stats
3
z = np.abs(stats.zscore(df))
4
df = df[(z < 3).all(axis=1)]
5
 
6
# IQR方法
7
Q1, Q3 = df.quantile(0.25), df.quantile(0.75)
8
IQR = Q3 - Q1
9
df = df[~((df < Q1-1.5*IQR) | (df > Q3+1.5*IQR)).any(axis=1)]
2