![](/img/trans.png)
[英]How to join maps in Apache Spark and perform RDD operations on them?
[英]Can I split a Spark RDD into two tables, and then perform a join on them?
我有一個大型TSV數據文件,它包含,匯總了事實表及其維度表。 我想知道它是否可以通過Spark,將單個文件划分/分區為不同的“表”,然后執行連接以規范化它們?
任何幫助我指向正確方向的幫助都會很棒。
在baseRDD上應用過濾器以獲得factRDD和dimensionsRDD,然后您可以對它們進行連接。
val baseRDD = sc.textFile("...")
val factRDD = baseRDD.filter(func1)
val dimensionsRDD = baseRD.filter(func2)
factRDD.join(dimentionsRDD)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.