繁体   English   中英

Spark-Scala-加入RDDS(csv)文件

[英]Spark - Scala - Join RDDS (csv) files

正如我刚开始时一样,我正在学习scala,这是一种需求,并且需要知道如何加入关系数据库等两个领域。

例:

表1(csv)

zip_type,primary_city,acceptable_cities,unacceptable_cities

例:

表2(csv)

GEO.id,GEO.id2,GEO.display-label,VD01

题:

我想将Column1(zip类型)Table1与Column2(GEO.id2)Table2加入。

目前我:

  • 用我的CSV文件创建了一个RDD
  • 使用CSV解析器处理了每一行,但加入联接时有些麻烦。

接下来我需要做什么?

要进行联接,您需要使用具有相同键列的pair-rdds。 考虑将RDD-1转换为以zip-type为键的元组(K,V)的RDD,类似地以GEO.id2为键的RDD-2。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM