使用 Spark 更新 elasticsearch 文檔

Question

我正在使用以下命令使用 spark 流將數據保存在彈性搜索中。

val ES_CONFIGURATION = Map(ConfigurationOptions.ES_NODES ->"192.168.1.1", ConfigurationOptions.ES_PORT -> "9200")

val ES_CONFIG = ES_CONFIGURATION + (ConfigurationOptions.ES_MAPPING_ID -> "key") + (ConfigurationOptions.ES_HTTP_TIMEOUT -> "3s")

  EsSparkSQL.saveToEs(DataFrame, indexname, ES_CONFIG)

有了這個，我將覆蓋整個文檔，這是我不想要的。

我只想更新此 dataframe 中存在數據的字段。

請提出建議，如何實現這一點......

Answer 1

使用es.mapping.id

指定將更新的文檔：

EsSparkSQL.saveToEs(df, indexname, Map("es.mapping.id" -> "mappingColumn"))

Answer 2

您需要將以下配置“ es.write.operation”設置為“ upsert”。 默認情況下，此模式為“索引”，在此模式下將添加新數據，同時替換（重新索引）現有數據（基於其ID）。
如果您指定“ es.mapping.id”，它仍將繼續覆蓋文檔。

希望這個答案對您有幫助。

Answer 3

保存文檔時請使用“追加”。

EsSparkSQL.write.format().options().mode("追加").save(imdex)