簡體   English   中英

Spark UI輸入列的值太高

[英]Spark UI Input column values are too high

我開始了spark工作並監視該過程,並檢出了spark提供的Web UI。 在執行程序頁面上,我看到輸入為305 GB,並且正在增加。

將鼠標懸停在“ 輸入”列上時,我得到以下描述

從Hadoop或Spark存儲讀取的字節和記錄

我的輸入數據只有300 MB,但“ 輸入”列顯示305 GB。 這是預期的行為嗎? 所有額外的GB輸入來自哪里? 如果不是,是什么原因導致這種現象?

您的查詢本質上過於籠統。 但是,我將嘗試將其與我所發生的事件之一聯系起來。 我也發生過類似的事件。 如果有幫助,我可以分享執行細節。

我正在運行一系列Spark SQL語句(帶有Joins和filter),但這項工作根本沒有完成。 經過在Spark Web UI中的仔細分析,我意識到其中一個階段的輸入正在運行到GB,因為我的數據太小了(小於100 MB)。

我檢查了SQL查詢並在數據級別進行了調試,才意識到其中一個JOINS引起了問題。 由於形成了笛卡爾連接,因此記錄數量激增至數百萬。 由於錯誤的連接條件,導致運行時數據創建。 解決了連接問題后,該問題就解決了。

請檢查您的代碼。 您可能會獲得更多見解。 Spark本身不會創建數據。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM