[英]R: combine two csv files with spark
我有两个非常大的 csv 文件,我正在使用带有 R 的 spark。 我的第一个文件是这样上传的:
data <- spark_read_csv(sc, "D:/my_file.csv")
使用第一个文件后,我有这些变量:
Name | Number
具有以下变量的第二个 csv 文件:
Name | Number | Surname
您还可以看到第二个文件比第一个文件多一个变量。 使用 spark 加载时,我想忽略第二个文件的Surname
列。 如何组合这两个文件,使第二个文件成为第一个文件的连续体?
据我所知,您想删除第二个 dataframe 中的Surname
列,并与第一个合并。
spark_read_csv
似乎来自我从未使用过的sparklyr
,但在普通SparkR
中,我们可以读取如下数据。 我很确定代码的 rest 将以相同的方式工作,无论读取数据的方式如何。
> d1 = read.df(".../f1.csv", "csv", header="true")
> head(d1)
Name Number
1 x 7
2 y 8
> d2 = read.df(".../f2.csv", "csv", header="true")
> head(d2)
Name Number Surname
1 z 5 zz
2 w 6 ww
然后,它非常简单:
> trimmed_d2 = select(d2, "Name", "Number")
> all_the_data = union(d1, trimmed_d2)
> head(all_the_data)
Name Number
1 x 7
2 y 8
3 z 5
4 w 6
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.