使用python和'|'将spark数据帧写入文件分隔符

Question

我从查询中构造了一个Spark数据帧。 我想要做的是将数据框打印到一个文本文件，其中所有信息都以“|”分隔，如下所示：

+-------+----+----+----+
|Summary|col1|col2|col3|
+-------+----+----+----+
|row1   |1   |14  |17  |
|row2   |3   |12  |2343|
+-------+----+----+----+

我怎样才能做到这一点？

Answer 1

您可以尝试写入选择|的分隔符的csv

df.write.option("sep","|").option("header","true").csv(filename)

这不会是100％相同但会接近。

或者你可以收集给司机并自己动手，例如：

myprint(df.collect())

要么

myprint(df.take(100))

df.collect和df.take返回行列表。

最后，您可以使用topandas收集驱动程序并使用pandas工具

Answer 2

在Spark 2.0+中 ，您可以使用内置的CSV编写器。 这里delimiter是,在默认情况下，你可以将其设置为|

df.write \
    .format('csv') \
    .options(delimiter='|') \
    .save('target/location')

使用python和&#39;|&#39;将spark数据帧写入文件 分隔符