SparkContext 对象没有属性 esRDD（elasticsearch-spark 连接器）

Question

在 spark-shell 中，我成功地使用了 elasticsearch-hadoop 连接器（特别是为 spark 开发的连接器：elasticsearch-spark-20_2.11-5.1.2.jar）。 调用火花：

] $SPARK_HOME/bin/spark-shell --master local[2] --jars ~/spark/jars/elasticsearch-spark-20_2.11-5.1.2.jar

在 Scala 外壳中：

scala> import org.elasticsearch.spark._
scala> val es_rdd = sc.esRDD("myindex/mytype",query="myquery")

它完美地工作。 我想对 pyspark 做同样的事情。 我试过：

] $SPARK_HOME/bin/pyspark --master local[2] --driver-class-path=/home/pat/spark/jars/elasticsearch-spark-20_2.11-5.1.2.jar

但是在 python shell 中，调用 esRDD 方法是不可能的：

>>> sc.esRDD
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  AttributeError: 'SparkContext' object has no attribute 'esRDD'

jar 库已加载，因为此调用有效：

>>> conf = {"es.resource" : "myindex/mytype", "es.nodes" : "localhost"}
>>> rdd = sc.newAPIHadoopRDD("org.elasticsearch.hadoop.mr.EsInputFormat","org.apache.hadoop.io.NullWritable","org.elasticsearch.hadoop.mr.LinkedMapWritable", conf=conf)

有人知道如何在 pyspark 中使用 esRDD() 吗？

Answer 1

esRDD不存在pyspark实际。

因此它只能在 spark scala 中工作，您需要导入以下内容：

import org.apache.spark.SparkContext._

import org.elasticsearch.spark._

现在您可以读取数据：

val rdd = sc.esRDD("index_name/doc_type")

SparkContext 对象没有属性 esRDD（elasticsearch-spark 连接器）

问题描述

1 个解决方案

解决方案1
1 已采纳 2017-02-04 12:58:07

SparkContext 对象没有属性 esRDD（elasticsearch-spark 连接器）

问题描述

1 个解决方案

解决方案1 1 已采纳 2017-02-04 12:58:07

解决方案1
1 已采纳 2017-02-04 12:58:07