繁体 English 中英

使用Spark MLlib决策树时如何处理缺失的数字特征？

[英]How to handle missing numerical features when using Spark MLlib Decision Trees?

原文 2017-05-18 20:00:44 3 1 scala/ apache-spark/ apache-spark-mllib/ feature-extraction

在Spark MLlib中使用决策树时，如何处理缺失的数字特征？

我正在考虑用其他值的平均值替换缺少的功能，但是我不确定对模型质量有什么影响。 Spark MLlib是否提供对此常见问题的任何支持？

1 个解决方案

每个数据帧可以采取可在DataFrameNaFunctions的优势drop的违规记录（不整列）， fill ，可以填写违规的数据与静态的“伪数据”或replace它可以用指定的数据替换有问题的数据。

https://spark.apache.org/docs/2.1.1/api/scala/#org.apache.spark.sql.DataFrameNaFunctions

scala> df.na
res20: org.apache.spark.sql.DataFrameNaFunctions = org.apache.spark.sql.DataFrameNaFunctions@e7e9006

scala> df.na.
drop   fill   replace

使用MLlib从Spark的决策树中找到重要性值

[英]Finding Importance Value from Spark's Decision Tree using MLlib

Spark mllib：如何将字符串分类特征转换为int以供Rating接受

[英]Spark mllib : how to convert string categorical features into int for Rating to accept

SPARK：如何为来自 LabeledPoint 的决策树创建 categoricalFeaturesInfo？

[英]SPARK: How to create categoricalFeaturesInfo for decision trees from LabeledPoint?

获取Spark MLlib决策树中每个叶子的默认元素数

[英]Get the default number of elements per leaf in a Decision Tree of Spark MLlib

Scala Spark-将RDD与mllib结合使用

[英]Scala Spark - using RDD with mllib

使用Scala进行Spark mllib分类

[英]Spark mllib Classification using scala

Spark / MLlib：添加特征平方以训练非线性模型

[英]Spark/MLlib: adding squares of features to train non-linear model

如何在Spark中建模树？

[英]How to model trees in Spark?

在Spark中使用MLlib函数ALS时出错

[英]Error in using MLlib function ALS in Spark

在Spark MLlib上使用Java中的Breeze

[英]Using Breeze from Java on Spark MLlib

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 使用MLlib从Spark的决策树中找到重要性值 Spark mllib：如何将字符串分类特征转换为int以供Rating接受 SPARK：如何为来自 LabeledPoint 的决策树创建 categoricalFeaturesInfo？获取Spark MLlib决策树中每个叶子的默认元素数 Scala Spark-将RDD与mllib结合使用使用Scala进行Spark mllib分类 Spark / MLlib：添加特征平方以训练非线性模型如何在Spark中建模树？在Spark中使用MLlib函数ALS时出错在Spark MLlib上使用Java中的Breeze

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM