簡體   English   中英

我可以將Spark RDD拆分為兩個表,然后對它們執行連接嗎?

[英]Can I split a Spark RDD into two tables, and then perform a join on them?

我有一個大型TSV數據文件,它包含,匯總了事實表及其維度表。 我想知道它是否可以通過Spark,將單個文件划分/分區為不同的“表”,然后執行連接以規范化它們?

任何幫助我指向正確方向的幫助都會很棒。

在baseRDD上應用過濾器以獲得factRDD和dimensionsRDD,然后您可以對它們進行連接。

val baseRDD = sc.textFile("...")  
val factRDD = baseRDD.filter(func1)  
val dimensionsRDD = baseRD.filter(func2)  
factRDD.join(dimentionsRDD)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM