在Spark / PySpark中使用文件名联接数据

Question

我正在从PySpark中的许多S3文件中读取数据。 S3键包含创建文件的日历日期，我想在数据和该日期之间进行联接。 有没有办法在文件和文件名中的数据行之间进行联接？

Answer 1

您可以将一列添加到包含文件名的数据框中，稍后将它们合并后，我将用它来标识每一行的源：

from pyspark.sql.functions import lit

filename = 'myawesomefile.csv'

df_new = df.withColumn('file_name', lit(filename))

Answer 2

我最终要做的是：

我改写了LineRecordReader Hadoop类，以便它在每行中都包含文件名，然后改写了TextInputFormat以使用我的新LineRecordReader。

然后，我使用newAPIHadoopFile函数加载了文件。

链接：
LineRecordReader： http ：//tinyurl.com/linerecordreader
TextInputFormat： http ： //tinyurl.com/textinputformat
newAPIHadoopFile： http ://tinyurl.com/newapihadoopfile

在Spark / PySpark中使用文件名联接数据

问题描述

2 个解决方案

解决方案1
1 2015-11-10 18:33:46

解决方案2
0 已采纳 2015-11-11 22:24:38

在Spark / PySpark中使用文件名联接数据

问题描述

2 个解决方案

解决方案1 1 2015-11-10 18:33:46

解决方案2 0 已采纳 2015-11-11 22:24:38

解决方案1
1 2015-11-10 18:33:46

解决方案2
0 已采纳 2015-11-11 22:24:38