Quiet
  • 主页
  • 归档
  • 分类
  • 标签
  • 链接
  • 关于我

bajiu

  • 主页
  • 归档
  • 分类
  • 标签
  • 链接
  • 关于我
Quiet主题
  • python
  • 机器学习

Scikit-learn 数据预处理与特征工程 (未完成)

bajiu
青年大学习

2025-07-30 20:03:00

为什么要数据预处理

真实的数据往往不是”干净”的,常常存在缺失值、离群值、不同量纲(如工资、身高、性别编码等)、离散/连续特征混杂、特征分布不均匀等问题,所以需要我们进行数据的预处理,否则模型效果很差或者报错。

常见的数据预处理方法

缺失值处理

import numpy as np
import pandas as pd

data = pd.DataFrame({
    'A': [1, 2, np.nan, 4],
    'B': [5, np.nan, np.nan, 8],
    'C': [10, 11, 12, 13]
})

print(data)
# 填充缺失值
data_filled = data.fillna(data.mean())
print(data_filled)
上一篇

PyCharm 配置 windows ssh 并加载

下一篇

golang 实现继承

©2025 By bajiu.