[英]Spark - Scala - Join RDDS (csv) files
正如我剛開始時一樣,我正在學習scala,這是一種需求,並且需要知道如何加入關系數據庫等兩個領域。
例:
表1(csv)
zip_type,primary_city,acceptable_cities,unacceptable_cities
例:
表2(csv)
GEO.id,GEO.id2,GEO.display-label,VD01
題:
我想將Column1(zip類型)Table1與Column2(GEO.id2)Table2加入。
目前我:
接下來我需要做什么?
要進行聯接,您需要使用具有相同鍵列的pair-rdds。 考慮將RDD-1轉換為以zip-type為鍵的元組(K,V)的RDD,類似地以GEO.id2為鍵的RDD-2。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.