PySpark-遍歷數據幀的每一行並運行配置單元查詢

Question

我有一個包含100行[名稱，年齡，日期，小時]的數據框。 我需要用不同的日期值對該數據框進行分區。 假設在這100行中有20個不同的日期值，那么我需要產生20個並行的配置單元查詢，其中每個配置單元QL將使用配置單元表將這些分區中的每一個連接起來。 配置單元表-[部門，原因，日期]按日期字段划分。

Hive表很大，因此我需要將這些連接優化為多個較小的連接，然后匯總這些結果。 關於如何實現此目標的任何建議？

Answer 1

您可以在單個查詢中執行此操作。 在日期和加入上對df進行分區。 在加入廣播期間，您的第一個表的數據很小（〜10MB）。 這是示例：-

df3 = df1.repartition("date").join(
F.broadcast(df2.repartition("date")), 
"date"
)
#df2 is your dataframe smaller dataframe in your case it is name, age, date, ,hour.
#Now perform any operation on df3

PySpark-遍歷數據幀的每一行並運行配置單元查詢

問題描述

1 個解決方案

解決方案1
0 2017-09-19 05:28:56

PySpark-遍歷數據幀的每一行並運行配置單元查詢

問題描述

1 個解決方案

解決方案1 0 2017-09-19 05:28:56

解決方案1
0 2017-09-19 05:28:56