繁体   English   中英

使用elasticsearch-spark连接器从Spark读取ES:返回所有字段

[英]Reading ES from spark with elasticsearch-spark connector: all the fields are returned

我已经在带有Elasticsearch-Spark连接器的火花壳中进行了一些实验。 调用火花:

] $SPARK_HOME/bin/spark-shell --master local[2] --jars ~/spark/jars/elasticsearch-spark-20_2.11-5.1.2.jar

在scala shell中:

scala> import org.elasticsearch.spark._
scala> val es_rdd = sc.esRDD("myindex/mytype",query="myquery")

它运作良好,结果包含myquery中指定的良好记录。 唯一的事情是,即使我在查询中指定了这些字段的子集,我也获得了所有字段。 例:

myquery = """{"query":..., "fields":["a","b"], "size":10}"""

返回所有字段,不仅返回a和b(顺便说一句,我注意到大小参数均未考虑:结果包含10条以上的记录)。 也许添加字段嵌套很重要,a和b实际上是doc.a和doc.b。

这是连接器中的错误还是语法错误?

spark elasticsearch连接器使用fields因此您无法应用投影。

如果您希望对映射使用细粒度的控制,则应该使用DataFrame代替,它基本上是RDD加架构。

还应启用pushdown谓词,以将Spark SQL转换(下推)为Elasticsearch Query DSL。

现在是一个半完整的示例:

myQuery = """{"query":..., """
val df = spark.read.format("org.elasticsearch.spark.sql")
                     .option("query", myQuery)
                     .option("pushdown", "true")
                     .load("myindex/mytype")
                     .limit(10) // instead of size
                     .select("a","b") // instead of fields

怎么打电话:

scala> val es_rdd = sc.esRDD("myindex/mytype",query="myquery", Map[String, String] ("es.read.field.include"->"a,b"))

您是否要限制从elasticsearch _search HTTP API返回的字段? (我想提高下载速度)。

首先,使用HTTP代理查看elastic4hadoop插件的功能(我在MacOS上使用Charles代理的Apache Zeppelin)。 这将帮助您了解下推的工作原理。

有几种解决方案可以实现此目的:

1.数据框和下推

您指定字段,插件将“转发”到ES(此处为_source参数):

POST ../events/_search?search_type=scan&scroll=5m&size=50&_source=client&preference=_shards%3A3%3B_local

(-)不适用于嵌套字段。

(+)简单,通俗易懂

2. RDD和查询字段

使用JavaEsSpark.esRDD ,您可以像以前一样在JSON查询中指定字段。 这仅适用于RDD(使用DataFrame时,不发送字段)。

(-)没有数据框->没有Spark方法

(+)更灵活,更可控

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM