繁体   English   中英

随机森林 - 使 null 值在决策树中始终有自己的分支

[英]Random Forest - make null values always have their own branch in a decision tree

您好我正在使用随机森林来构建 model 并且我正在尝试处理 null 值。 有人会碰巧知道如何强制随机森林 model 将 null 值视为其自己的单独波段吗? (如 null 值永远不会与其他值范围绑定在一起。因此在决策树中,度量的 null 值总是有自己的分支)。

我不想使用均值代替空值,因为我不希望 model 将 null 值与接近均值的其他值结合起来,我也不想删除空值。

我希望它使决策树始终将度量的 null 值视为自己的分支。

谢谢:)

你可以试试这些。

  1. 将 null 值替换为与列中的任何其他值有很大差异的值。

例子

假设“特征”是只有正值的列的名称,那么负值对于 null 就足够了。

dataframe.loc[dataframe['feature'].isna(), 'feature'] = -100
  1. 您可以添加一个新的空跟踪列来跟踪另一列的 null 值。 (如果所有特征都被考虑用于对随机森林进行建模,则使用此选项)

例子

让“特征”为具有 null 值的列的名称

dataframe['feature_isnull'] = 0 #null-tracking column
dataframe.loc[dataframe['feature'].isna(),'feature_isnull'] = 1

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM