如何在Spark中使用Elasticsearch-Hadoop將數據從一個Elasticsearch集群重新索引到另一個集群

Question

我有兩個單獨的Elasticsearch集群，我想將第一個集群中的數據重新索引到第二個集群，但是我發現我只能在SparkContext配置中設置一個Elasticsearch集群，例如：

var sparkConf : SparkConf = new SparkConf()
                     .setAppName("EsReIndex")
sparkConf.set("es.nodes", "node1.cluster1:9200")

那么，如何在同一應用程序內部的Spark中使用彈性搜索-hadoop在兩個Elasticsearch集群之間移動數據？

Answer 1

您無需為此配置SparkConf內部的節點地址。

當您使用DataFrameWriter與elasticsearch格式，你可以遵循通過該節點的地址作為一個選項：

val df = sqlContext.read
                  .format("elasticsearch")
                  .option("es.nodes", "node1.cluster1:9200")
                  .load("your_index/your_type")

df.write
    .option("es.nodes", "node2.cluster2:9200")
    .save("your_new_index/your_new_type")

這應該與spark 1.6.X和相應的elasticsearch-hadoop連接器一起使用。

如何在Spark中使用Elasticsearch-Hadoop將數據從一個Elasticsearch集群重新索引到另一個集群

問題描述

1 個解決方案

解決方案1
3 已采納 2016-10-29 08:03:26

如何在Spark中使用Elasticsearch-Hadoop將數據從一個Elasticsearch集群重新索引到另一個集群

問題描述

1 個解決方案

解決方案1 3 已采納 2016-10-29 08:03:26

解決方案1
3 已采納 2016-10-29 08:03:26