1. 回归方法对照表
回归方法 | 特点 | 适用场景 | 优点 | 缺点 |
---|---|---|---|---|
线性回归 | 线性关系,模型简单 | 数据之间存在线性关系,如房价预测 | 实现简单,计算量小,易解释 | 对异常值敏感,不能捕捉非线性关系 |
岭回归 | 对线性回归加了L2正则化项,防止过拟合 | 特征多且可能有多重共线性时 | 能处理多重共线性,防止过拟合 | 可能会低估模型的复杂性 |
套索回归 | 对线性回归加了L1正则化项,产生稀疏解 | 特征数多且希望某些特征权重为零时 | 可进行特征选择,产生稀疏模型 | 对某些数据可能不稳定 |
弹性网回归 | 结合了岭回归和套索回归的优点 | 需要同时进行特征选择和正则化时 | 适用于高维数据,防止过拟合 | 对特征相关性较强的数据表现一般 |
多项式回归 | 通过增加特征的高次项来捕捉非线性关系 | 数据存在非线性关系时 | 可以拟合非线性数据,灵活性较高 | 容易出现过拟合,特别是高次项过多时 |
支持向量回归(SVR) | 基于支持向量机的回归模型,具有较强的鲁棒性 | 数据噪声大或者有非线性关系时 | 对异常值不敏感,可以处理非线性关系 | 计算量大,参数调节复杂 |
决策树回归 | 基于树形结构,通过分割特征空间预测值 | 特征之间的关系复杂,或者无法通过简单的线性模型拟合 | 易于理解和解释,能够捕捉非线性关系 | 容易过拟合,容易产生复杂的树结构 |
随机森林回归 | 多棵决策树的集成模型,通过投票得出预测值 | 特征多、复杂的回归问题 | 高精度,能够处理非线性关系 | 模型复杂,计算开销大 |
梯度提升回归 | 集成学习方法,通过逐步提升模型性能 | 非线性关系明显,且特征较为复杂时 | 精度高,适用于复杂任务 | 对噪声敏感,调参复杂 |
XGBoost回归 | 基于梯度提升的优化版本,计算效率更高 | 非线性关系复杂的高维数据 | 计算效率高,避免过拟合,表现优秀 | 需要调参,易受异常值影响 |
2. 回归方法决策流程图
1. 数据分析
- 是否存在线性关系?
- 是: 选择 线性回归 或 多项式回归。
- 否: 选择 支持向量回归、决策树回归 或其他非线性回归模型。
2. 特征选择
- 特征数量较多,是否存在多重共线性?
- 是: 选择 岭回归 或 套索回归。
- 否: 选择 线性回归 或 支持向量回归。
3. 模型选择
- 是否有复杂的非线性关系?
- 是: 选择 决策树回归、随机森林回归 或 XGBoost回归。
- 否: 选择 线性回归 或 岭回归。
4. 正则化需求
- 是否需要防止过拟合?
- 是: 选择 套索回归、岭回归 或 弹性网回归。
- 否: 选择 普通的线性回归 或 决策树回归。