簡體 English 中英

Spark UI輸入列的值太高

[英]Spark UI Input column values are too high

原文 2019-03-01 08:30:56 8 1 apache-spark

我開始了spark工作並監視該過程，並檢出了spark提供的Web UI。 在執行程序頁面上，我看到輸入為305 GB，並且正在增加。

將鼠標懸停在“ 輸入”列上時，我得到以下描述

從Hadoop或Spark存儲讀取的字節和記錄

我的輸入數據只有300 MB，但“ 輸入”列顯示305 GB。 這是預期的行為嗎？ 所有額外的GB輸入來自哪里？ 如果不是，是什么原因導致這種現象？

1 個解決方案

您的查詢本質上過於籠統。 但是，我將嘗試將其與我所發生的事件之一聯系起來。 我也發生過類似的事件。 如果有幫助，我可以分享執行細節。

我正在運行一系列Spark SQL語句（帶有Joins和filter），但這項工作根本沒有完成。 經過在Spark Web UI中的仔細分析，我意識到其中一個階段的輸入正在運行到GB，因為我的數據太小了（小於100 MB）。

我檢查了SQL查詢並在數據級別進行了調試，才意識到其中一個JOINS引起了問題。 由於形成了笛卡爾連接，因此記錄數量激增至數百萬。 由於錯誤的連接條件，導致運行時數據創建。 解決了連接問題后，該問題就解決了。

請檢查您的代碼。 您可能會獲得更多見解。 Spark本身不會創建數據。

輸入線太長 - Spark

[英]Input line is too long - Spark

spark ui的“輸入大小/記錄”列上的內存和網絡有什么區別？

[英]what is the difference between memory and network on the column 'input size/Record' on spark ui?

折疊spark數據幀中的列值

[英]Collapsing column values in spark dataframes

Spark中每列的值總和

[英]Sum of values per column in Spark

將 UDF 函數應用於 Spark 窗口，其中輸入參數是范圍內所有列值的列表

[英]Apply UDF function to Spark window where the input paramter is a list of all column values in range

spark scala 列到列唯一值的計數器

[英]spark scala column to counter of column unique values

如果列內容太長，如何使用 spark-redshift 截斷列？

[英]How to trunc columns with spark-redshift if the column content is too long?

火花驅動器的高可用性

[英]high availability of spark driver

Spark Streaming和高可用性

[英]Spark Streaming and High Availability

Spark 高可用性

[英]Spark High Availability

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 輸入線太長 - Spark spark ui的“輸入大小/記錄”列上的內存和網絡有什么區別？折疊spark數據幀中的列值 Spark中每列的值總和將 UDF 函數應用於 Spark 窗口，其中輸入參數是范圍內所有列值的列表 spark scala 列到列唯一值的計數器如果列內容太長，如何使用 spark-redshift 截斷列？火花驅動器的高可用性 Spark Streaming和高可用性 Spark 高可用性

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM