如何在PySpark中连接两个LabeledPoints的要素列

Question

我有两个LabeledPoints - lable1和label2 ：

label1 = (label,[feature1,feature2,feature3])
label2 = (label,[feature4,feature5])

两个LabeledPoints的label列相同，我想形成一个新的LabeledPoint ，其中具有来自两个LabeledPoints feature列连接在一起的功能：

label_new = (label,[feature1,feature2,feature3,feature4,feature5])

如何将两个LabeledPoints在一起？

Answer 1

如您在PySpark的LabeledPoint文档中PySpark ， LabeledPoint对象具有两个属性label和features ，因此我们可以使用features属性来实现这一点。

from pyspark.mllib.regression import LabeledPoint
import numpy as np

a = LabeledPoint(0, [1,2,3])
b = LabeledPoint(0, [3,1,2])
c = LabeledPoint(a.label, np.concatenate((a.features, b.features), axis=0))

print c # LabeledPoint(0.0, [1.0,2.0,3.0,3.0,1.0,2.0])

注意，您必须注意标签值！ 他们可能会有所不同。

如何在PySpark中连接两个LabeledPoints的要素列

问题描述

1 个解决方案

解决方案1
2 2015-12-05 02:18:10

如何在PySpark中连接两个LabeledPoints的要素列

问题描述

1 个解决方案

解决方案1 2 2015-12-05 02:18:10

解决方案1
2 2015-12-05 02:18:10