繁体   English   中英

使用Spark MLlib决策树时如何处理缺失的数字特征?

[英]How to handle missing numerical features when using Spark MLlib Decision Trees?

在Spark MLlib中使用决策树时,如何处理缺失的数字特征?

我正在考虑用其他值的平均值替换缺少的功能,但是我不确定对模型质量有什么影响。 Spark MLlib是否提供对此常见问题的任何支持?

每个数据帧可以采取可在DataFrameNaFunctions的优势drop的违规记录(不整列), fill ,可以填写违规的数据与静态的“伪数据”或replace它可以用指定的数据替换有问题的数据。

https://spark.apache.org/docs/2.1.1/api/scala/#org.apache.spark.sql.DataFrameNaFunctions

scala> df.na
res20: org.apache.spark.sql.DataFrameNaFunctions = org.apache.spark.sql.DataFrameNaFunctions@e7e9006

scala> df.na.
drop   fill   replace

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM