簡體   English   中英

PySpark-遍歷數據幀的每一行並運行配置單元查詢

[英]PySpark - loop through each row of dataframe and run a hive query

我有一個包含100行[名稱,年齡,日期,小時]的數據框。 我需要用不同的日期值對該數據框進行分區。 假設在這100行中有20個不同的日期值,那么我需要產生20個並行的配置單元查詢,其中每個配置單元QL將使用配置單元表將這些分區中的每一個連接起來。 配置單元表-[部門,原因,日期]按日期字段划分。

Hive表很大,因此我需要將這些連接優化為多個較小的連接,然后匯總這些結果。 關於如何實現此目標的任何建議?

您可以在單個查詢中執行此操作。 在日期和加入上對df進行分區。 在加入廣播期間,您的第一個表的數據很小(〜10MB)。 這是示例:-

df3 = df1.repartition("date").join(
F.broadcast(df2.repartition("date")), 
"date"
)
#df2 is your dataframe smaller dataframe in your case it is name, age, date, ,hour.
#Now perform any operation on df3  

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM