为什么要数据预处理
真实的数据往往不是”干净”的,常常存在缺失值、离群值、不同量纲(如工资、身高、性别编码等)、离散/连续特征混杂、特征分布不均匀等问题,所以需要我们进行数据的预处理,否则模型效果很差或者报错。
常见的数据预处理方法
缺失值处理
import numpy as np
import pandas as pd
data = pd.DataFrame({
'A': [1, 2, np.nan, 4],
'B': [5, np.nan, np.nan, 8],
'C': [10, 11, 12, 13]
})
print(data)
# 填充缺失值
data_filled = data.fillna(data.mean())
print(data_filled)