標簽[elasticsearch-spark] - 堆棧內存溢出

[英]Incompatible OpenSearch 1.3 connector for Spark 3.x

我們的服務器中曾經有 Spark 2.4.4、Scala 2.11 和 Elastic Search 6.8。我們的服務器最近升級了，Spark 升級到3.1.2和 Scala 到2.12 。將記錄寫入 Elastic Search 時出現以下錯誤。所以我們從 ES 6.8 升級到 7.10 ...

Spark 無法從 Elasticsearch/Opensearch 讀取數據。收到的無效 map 動態日期格式

[英]Spark fails to read from Elasticsearch/Opensearch. Invalid map received dynamic_date_formats

您好我正在嘗試使用 scala 2.11.12、spark 2.3.0 和 elasticsearch-spark-20 7.7.0 使用以下代碼從 OpenSearch 1.3.4 索引中讀取：但我得到這個錯誤我已經在 opensearch 中設置了動態日期映射。而且我還可以使用正確的映射寫 ...

從 Kafka 到 Elastic Search 的 Spark 結構化流

[英]Spark Structured Streaming from Kafka to Elastic Search

我想寫一個從 Kafka 到 Elasticsearch 的 Spark Streaming Job。在這里，我想在從 Kafka 讀取模式時動態檢測模式。你能幫我這樣做嗎？我知道，這可以通過下一行在 Spark 批處理中完成。 val schema = spark.read.json(dfK ...

SparkContext：運行 Spark 作業時初始化 SparkContext 時出錯

[英]SparkContext: Error initializing SparkContext While Running Spark Job

我正在執行將數據從 Elastic Search 加載到 HDFS 的 Spark 程序，但在初始化 SparkContext 時出現錯誤。運行作業時出錯。錯誤是在制作 spark 會話期間。 Hadoop：3.2.1 火花：2.4.4 Elasticsearch Spark（用於 S ...

如何通過 PySpark 將帶有結構列的 dataframe 寫入 Elasticsearch

[英]How to write dataframe with struct column into Elasticsearch via PySpark

我正在嘗試將包含結構列的 dataframe 寫入 Elasticsearch：結果是：這確實有效，但是 JSON 被轉義了，因此相應的詳細信息字段在 Kibana 中不可點擊：我嘗試提供.option("es.input.json","true") ，但得到一個異常：相反，如果我嘗試寫入 ...

Spark-elasticsearch 使用 spark 從 elasticsearch 中獲取過濾記錄

[英]Spark-elasticsearch fetch filtered records from elasticsearch using spark

我有一張地圖，如下所示：我的彈性數據有一個名為“名稱”的字段。我想從 spark 查詢彈性搜索並返回所有具有“a”、“b”、“c”作為“name”字段值的記錄。我不想對彈性查詢中的名稱進行硬編碼。有人可以幫我構建一個接受字符串列表的動態查詢。 ...

Elasticsearch with Spark，基於數據框列的動態索引創建

[英]Elasticsearch with Spark, dynamic index creation based on dataframe column

我有一個火花數據框，其中有一列說“名稱”。該名稱在單個數據框中可以具有不同的值。當我使用 spark (scala) 將數據寫入 elasticsearch 時，我想根據列“name”的值將數據寫入不同的索引。 saveToEs 需要一個字符串，我正在尋找以下內容：或類似的東西，我可 ...

EsSparkSQL$.saveToES 方法中發生 NoSuchMethodError

[英]NoSuchMethodError occurring in EsSparkSQL$.saveToES method

線程“main”中的異常 java.lang.NoSuchMethodError: org.elasticsearch.spark.sql.EsSparkSQL$.saveToEs 將文檔從 Spark 應用程序插入到 Elasticsearch 集群時出現上述錯誤。 ...

如何使用elasticsearch-spark在Elasticsearch中創建索引？

[英]How to create an index in Elasticsearch using elasticsearch-spark?

我想從我的火花轉換中在Elasticsearch中創建一個索引。我想知道使用elasticsearch-spark庫的最佳方法是什么？親切的問候 ...

org.elasticsearch.hadoop.rest.EsHadoopRemoteException：search_context_missing_exception：未找到ID的搜索上下文

[英]org.elasticsearch.hadoop.rest.EsHadoopRemoteException: search_context_missing_exception: No search context found for id

由於“找不到ID的搜索上下文”，因此Spark任務失敗。我嘗試了幾種選擇 spark.es.input.max.docs.per.partition 250 spark.es.scroll.size 100 spark.es.batch.size.bytes 32m ...

在writeStream到Elasticsearch之前，如何將JSON數組轉換為行？

[英]How to transform array of JSONs to rows before writeStream to Elasticsearch?

該問題的后續行動我有以下格式的JSON流數據我需要將其轉換為以下格式為了實現這一點，按照上一個問題的建議進行了轉換。 val df1 = df0.select($"A", explode($"B")).toDF("A", "Bn") val df2 = df1.w ...

Elasticsearch 火花讀取慢

[英]Elasticsearch spark reading slow

使用規定的 spark 連接器org.elasticsearch:elasticsearch-spark-20_2.11:6.3.2從 Elasticsearch v6.2讀取到 spark 非常慢。這是來自帶有索引的 3 節點 ES 集群：在（10 個節點、1tb 內存、> 50 個 ...

異常-“網絡/Elasticsearch 集群不可訪問或針對 WAN/雲實例”

[英]Exception-“network/Elasticsearch cluster is not accessible or when targeting a WAN/Cloud instance”

我曾嘗試運行 Spark 應用程序以集成 Hbase 和 ES。我曾嘗試在 ES 中創建索引並存儲來自 HBase 的數據，但在連接到 ES 服務器時收到“用戶未經授權或訪問被拒絕”的問題。我已與運營團隊核對並退回 ES 服務器，嘗試運行應用程序並獲得附加異常 - 線程“main” org.e ...

彈性搜索無法寫入所有條目：可能是es重載

[英]Elastic search could not write all entries: May be es was overloaded

我有一個應用程序，我讀取csv文件並進行一些轉換，然后將它們從spark本身推送到彈性搜索。像這樣我有幾個節點，在每個節點中，我運行5-6 spark-submit命令，推送到elasticsearch 我經常得到錯誤我的Elasticsearch集群有以下統計數據 ...

Spark Group By和帶有Rank功能運行非常慢

[英]Spark Group By and with Rank function is running very slow

我正在編寫一個用於在一個時間范圍內查找訪問的前n個URL的spark應用。但是，此作業可以繼續運行，並且在一個實例中的ES中需要花費數小時來處理389451條記錄。我想減少這個時間。我正在從彈性搜索中讀取波紋在上面的DF中，我正在從ElasticSearch中讀取和過濾 ...

從spark寫入elasticsearch非常慢

[英]Write to elasticsearch from spark is very slow

我正在處理文本文件並從Spark應用程序將轉換后的行寫入到彈性搜索中，如下所示這運行非常慢，大約需要8分鍾才能寫入287.9 MB / 1513789記錄。鑒於網絡延遲始終存在，我如何調整spark和elasticsearch設置以使其更快。我在本地模式下使用Spar ...

Spark + Elastic搜索寫入性能問題

[英]Spark + Elastic search write performance issue

使用Spark Java看到對Elasticsearch的寫入次數低。這是配置將13.xlarge機器用於ES群集火花： 2節點EMR集群 ES索引在映射中定義了16個分片。在運行作業時配置低於和使用使用這種配置，我嘗試加載10 ...

如何在SPARK中使用elasticsearch-spark從Elasticsearch讀取數據時轉換類型

[英]How to convert types when reading data from Elasticsearch using elasticsearch-spark in SPARK

當我嘗試使用esRDD("index") -spark中的esRDD("index")函數從esRDD("index")讀取數據時，我得到org.apache.spark.rdd.RDD[(String, scala.collection.Map[String,AnyRef])]類型的結果org ...

從elasticsearch-spark檢索指標

[英]Retrieve metrics from elasticsearch-spark

在ETL級聯作業結束時，我將使用Elasticsearch -hadoop使用Hadoop計數器公開的Hadoop指標來提取有關Elasticsearch攝取的指標。我想使用Spark進行相同的操作，但找不到使用Spark連接器的有關指標的文檔。並非總是如此，但通常情況下，我們 ...

Apache Spark Java API + Twitter4j +異常，同時將Twitter流保存到Elasticsearch

[英]Apache Spark Java API + Twitter4j + exception while saving Twitter stream to Elasticsearch

我正在嘗試使用Apache Spark Java API建立Twitter流。在將Twitter流保存到Elasticsearch時，我遇到了異常。我想我正在嘗試保存原始推文，這就是問題所在。請讓我知道我可以嘗試解決此異常。以下是代碼：堆棧跟蹤： ...