繁体   English   中英

R:将两个 csv 文件与 spark 合并

[英]R: combine two csv files with spark

我有两个非常大的 csv 文件,我正在使用带有 R 的 spark。 我的第一个文件是这样上传的:

data <- spark_read_csv(sc, "D:/my_file.csv")

使用第一个文件后,我有这些变量:

Name | Number

具有以下变量的第二个 csv 文件:

Name | Number | Surname

您还可以看到第二个文件比第一个文件多一个变量。 使用 spark 加载时,我想忽略第二个文件的Surname列。 如何组合这两个文件,使第二个文件成为第一个文件的连续体?

据我所知,您想删除第二个 dataframe 中的Surname列,并与第一个合并。

spark_read_csv似乎来自我从未使用过的sparklyr ,但在普通SparkR中,我们可以读取如下数据。 我很确定代码的 rest 将以相同的方式工作,无论读取数据的方式如何。

> d1 = read.df(".../f1.csv", "csv", header="true")
> head(d1)
  Name Number
1    x      7
2    y      8

> d2 = read.df(".../f2.csv", "csv", header="true")
> head(d2)
  Name Number Surname
1    z      5      zz
2    w      6      ww

然后,它非常简单:

> trimmed_d2 = select(d2, "Name", "Number")
> all_the_data = union(d1, trimmed_d2)
> head(all_the_data)
  Name Number
1    x      7
2    y      8
3    z      5
4    w      6

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM