[英]How to handle missing numerical features when using Spark MLlib Decision Trees?
在Spark MLlib中使用决策树时,如何处理缺失的数字特征?
我正在考虑用其他值的平均值替换缺少的功能,但是我不确定对模型质量有什么影响。 Spark MLlib是否提供对此常见问题的任何支持?
每个数据帧可以采取可在DataFrameNaFunctions的优势drop
的违规记录(不整列), fill
,可以填写违规的数据与静态的“伪数据”或replace
它可以用指定的数据替换有问题的数据。
https://spark.apache.org/docs/2.1.1/api/scala/#org.apache.spark.sql.DataFrameNaFunctions
scala> df.na
res20: org.apache.spark.sql.DataFrameNaFunctions = org.apache.spark.sql.DataFrameNaFunctions@e7e9006
scala> df.na.
drop fill replace
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.