从 hdfs 读取文件 - pyspark

Question

我是 Pyspark 的新手，当我执行以下代码时，出现属性错误。

我正在使用 apache spark 2.4.3

t=spark.read.format("hdfs:\\test\a.txt")
t.take(1)

我希望输出为 1，但它会引发错误。

AttributeError: dataframereader object has no attribute take

Answer 1

您没有正确使用 API：

在这里，您正在阅读文本文件，因此您要做的就是：

t = spark.read.text("hdfs://test/a.txt")
t.collect()

查看相关文档