课程进度 13% · 第2/10章第2/10章 · 标签 1/3
— 1 —
数据清洗
缺失值处理
python
1
import pandas as pd
2
df = pd.read_csv("data.csv")
3
df.dropna() # 删除缺失值
4
df.fillna(df.mean()) # 均值填充
5
df.fillna(method='ffill') # 前向填充
异常值处理
python
1
# Z-score方法
2
from scipy import stats
3
z = np.abs(stats.zscore(df))
4
df = df[(z < 3).all(axis=1)]
5
6
# IQR方法
7
Q1, Q3 = df.quantile(0.25), df.quantile(0.75)
8
IQR = Q3 - Q1
9
df = df[~((df < Q1-1.5*IQR) | (df > Q3+1.5*IQR)).any(axis=1)]
— 2 —