[英]Non-Uniform distribution of task and data on Pyspark executors
雖然我最初的建議是盡可能少地使用隨機操作(如連接)。 但是,如果您希望堅持下去,我可以提供一些建議,以下列方式調整您的SparkContext:
如您所說(強調我的):
我正在過濾並加入 3個數據集。 之后,我將緩存加入的數據集以生成和聚合功能
如果聯接鍵或分組列的分布不均勻,則聯接和較小程度上的聚合都可能導致數據的分布不均-這是必需的改組的自然結果。
在一般情況下,您幾乎無能為力。 在特定情況下,通過廣播或添加鹽分可能會有所收獲,但是在您的情況下,問題似乎並不十分嚴重。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.