如何在pyspark SQL中保存表？

Question

我想将生成的表保存到csv，文本文件或类似文件中，以便能够使用RStudio进行可视化。

我正在使用pyspark.sql在hadoop设置中执行一些查询。 我想将结果保存在hadoop中，然后将结果复制到本地驱动器中。

myTable = sqlContext.sql("SOME QUERIES")
myTable.show() # Show my result
myTable.registerTempTable("myTable") # Save as table
myTable.saveAsTextFile("SEARCH PATH") # Saving result in my hadoop

这返回此：
AttributeError：“ DataFrame”对象没有属性“ saveAsTextFile”

这是仅使用pyspark即不使用pyspark.sql时通常执行的操作。

然后我复制到本地驱动器

hdfs dfs –copyToLocal SEARCH PATH

谁能帮我？

Answer 1

您可以将DataFrameWriter与支持的格式之一结合使用。 以JSON为例：

myTable.write.json(path)

如何在pyspark SQL中保存表？

问题描述

1 个解决方案

解决方案1
1 已采纳

如何在pyspark SQL中保存表？

问题描述

1 个解决方案

解决方案1 1 已采纳

解决方案1
1 已采纳