Pyspark：如何从不同的文件夹中读取多个 csv？

Question

我有两个文件夹A和B

A contains file1.csv.gz and file2.csv.gz and B contains file2.csv.gz and file3.csv.gz

我想以独特的 dataframe 阅读这些文件。

这就是我正在做的：

folders_to_read = ["A/*.csv.gz", "B/*.csv.gz"]
df = spark.read.format('csv').option("header", "true").option("inferSchema", "true").\
  option("mode","DROPMALFORMED").load(i for i in folders_to_read)

但我得到一个错误。

Py4JJavaError: An error occurred while calling o200.load.
: java.lang.ClassCastException: java.util.ArrayList cannot be cast to java.lang.String

Answer 1

似乎传递给 pyspark 的路径需要是一个字符串。 pyspark 接受字符串列表会很好，但它似乎没有这样做。 您可以通过使用正则表达式来解决它。 它似乎在我的本地机器上工作。

文件夹结构：

$ cd /Users/username/Downloads/tmp
$ tree
.
├── A
│   └── a.csv.gz
└── B
    └── b.csv.gz

代码：

x = spark.read.csv('/Users/username/Downloads/tmp/[AB]/*.csv.gz')
print(x)
DataFrame[_c0: string, _c1: string, _c2: string]

有关正则表达式的更多详细信息，请参阅此内容：如何使用正则表达式在 sc.textFile 中包含/排除一些输入文件？

Pyspark：如何从不同的文件夹中读取多个 csv？

问题描述

1 个解决方案

解决方案1
2 2020-04-21 00:16:58

Pyspark：如何从不同的文件夹中读取多个 csv？

问题描述

1 个解决方案

解决方案1 2 2020-04-21 00:16:58

解决方案1
2 2020-04-21 00:16:58