电机线盒
主页 > 电机线盒 >

使用统计插值处理机械学习中的惩罚缺失值(带代

作者:YWYF 发布时间:2020-10-16 浏览:72

在机器学习中利用统计插补来处理缺失值(附代码)

为了正确使用缺失值插值方法,避免数据泄露,这就要求统计范围只针对训练集的每一列,然后再对训练数据和测试数据进行每90%的折扣。

-出自2013年出版的Applied Predictive Modeling第42页

对于病马数据集,将平均值用于随机森林模型的缺失值插值和建模流水线,并使用10%的折扣交叉验证。我们可以对以上各项结合起来的效果进行评估。

在机器学习中利用统计插补来处理缺失值(附代码)

图书地址:https://amzn.to/3b2LHTL

在机器学习中利用统计插补来处理缺失值(附代码)

...。#Define Modeling PipelinModel=RandomForestSorfier()imputer=SimpleImputer(Strategy=#39;Mean#39;)Pipeline=Pipeline(Steps=[((#39 Leading39,Inputer),(#39 Leading39,model)])

例如,以下管道使用SimpleImputer方法,使用平均值作为统计策略,然后使用随机林模型。

在机器学习中利用统计插补来处理缺失值(附代码)

如果我们使用重采样来调整参数,或评估模型的性能,则在重采样过程中需要包括缺失值插值。

这可以在创建建模管线(管线)的过程中完成,在该过程中,第一步是缺少值内插,第二步是模型。此过程可以利用Pipeline类。