簡體   English   中英

Spark-Scala-加入RDDS(csv)文件

[英]Spark - Scala - Join RDDS (csv) files

正如我剛開始時一樣,我正在學習scala,這是一種需求,並且需要知道如何加入關系數據庫等兩個領域。

例:

表1(csv)

zip_type,primary_city,acceptable_cities,unacceptable_cities

例:

表2(csv)

GEO.id,GEO.id2,GEO.display-label,VD01

題:

我想將Column1(zip類型)Table1與Column2(GEO.id2)Table2加入。

目前我:

  • 用我的CSV文件創建了一個RDD
  • 使用CSV解析器處理了每一行,但加入聯接時有些麻煩。

接下來我需要做什么?

要進行聯接,您需要使用具有相同鍵列的pair-rdds。 考慮將RDD-1轉換為以zip-type為鍵的元組(K,V)的RDD,類似地以GEO.id2為鍵的RDD-2。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM