R：将两个 csv 文件与 spark 合并

Question

我有两个非常大的 csv 文件，我正在使用带有 R 的 spark。 我的第一个文件是这样上传的：

data <- spark_read_csv(sc, "D:/my_file.csv")

使用第一个文件后，我有这些变量：

Name | Number

具有以下变量的第二个 csv 文件：

Name | Number | Surname

您还可以看到第二个文件比第一个文件多一个变量。 使用 spark 加载时，我想忽略第二个文件的Surname列。 如何组合这两个文件，使第二个文件成为第一个文件的连续体？

Answer 1

据我所知，您想删除第二个 dataframe 中的Surname列，并与第一个合并。

spark_read_csv似乎来自我从未使用过的sparklyr ，但在普通SparkR中，我们可以读取如下数据。 我很确定代码的 rest 将以相同的方式工作，无论读取数据的方式如何。

> d1 = read.df(".../f1.csv", "csv", header="true")
> head(d1)
  Name Number
1    x      7
2    y      8

> d2 = read.df(".../f2.csv", "csv", header="true")
> head(d2)
  Name Number Surname
1    z      5      zz
2    w      6      ww

然后，它非常简单：

> trimmed_d2 = select(d2, "Name", "Number")
> all_the_data = union(d1, trimmed_d2)
> head(all_the_data)
  Name Number
1    x      7
2    y      8
3    z      5
4    w      6

R：将两个 csv 文件与 spark 合并

问题描述

1 个解决方案

解决方案1
0 2019-11-04 11:14:30

R：将两个 csv 文件与 spark 合并

问题描述

1 个解决方案

解决方案1 0 2019-11-04 11:14:30

解决方案1
0 2019-11-04 11:14:30