dfResult = spark.readStream.format("delta").load(PATH)
dfResult.createOrReplaceTempView("Stream")

尝试从增量表中读取流数据,我将所有数据放入其中并通过执行以下操作将它们可视化:

%sql
SELECT Time, score
From Stream 

但是,图形或表格中仅显示前 1000 行。

有没有办法查看最后 1000 行或显示整个数据而不是前 1,000 行?

#1楼 票数:0

您可以使用 ID 对数据框进行排序并使用 limit() 对其进行子集化,以确保您获得所需的行。

import pyspark.sql.functions as f

# add an index column (if you don't have it)
dfResult = dfResult.withColumn('index', f.monotonically_increasing_id())

# sort ascending and take first 1000 rows for df1
df1 = dfResult.orderBy("index", ascending=True).limit(1000)

# sort descending and take last 1000 rows for df2
df2 = dfResult.orderBy("index", ascending=False).limit(1000)

display(df2)

#2楼 票数:0

尝试按日期排序

display(dfResult.orderBy("Time", ascending=False).limit(1000))

  ask by Brian Lee translate from so

未解决问题?本站智能推荐:

2回复

无法从 azure 数据块中将文件保存在 azure 数据湖中

我正在尝试将字符串内容作为 XML 内容保存到 azure 数据湖中。 一个字符串变量包含下面提到的 xml 内容。 我使用以下代码将文件处理到数据湖中。 它抛出以下错误:没有这样的文件或目录:'/mnt/adls/ProjectDataDecoded.xml” 我可以使用上述安装点访问
1回复

从 azure 数据湖 gen2 中删除 x 天前的文件

我需要使用 databricks 笔记本从 azure 数据湖存储 gen2 中删除镶木地板文件(以日期为后缀)。 应该删除 'x' 天前的文件。有人可以帮我解决这个要求吗
1回复

Azure 数据块:KafkaUtils createDirectStream 导致 Py4JNetworkError(“Java 端的答案为空”)错误

在 Azure databricks 中,我尝试在 notebook 中创建一个 kafka 流并用它来创建一个 Spark 作业。 Databricks 在 KafkaUtils.createDirectStream() 行抛出错误。 下面附上相应的代码。 附加错误堆栈跟踪。 在 A
2回复

截断数据块上的表

我在 Azure 中使用两个环境:Databricks 和 SQL 数据库。 我正在使用一个函数来生成一个数据框,它将用于覆盖存储在 SQL 数据库中的表。 我有很多问题,因为 df.write.jdbc(mode = 'overwrite') 只删除表,我猜我的用户没有再次创建的正确权限(我已经看
2回复

无法使用天蓝色数据块中的火花读取读取 csv 文件

我的数据位于 azure cosmos DB 中,我已将数据集安装在 azure databricks 上。 我可以使用 Pandas 读取 csv 文件并将其加载到 spark 数据帧。 这适用于控制台的以下输出,我可以使用此数据框进行进一步处理。 但是当我尝试使用 spark 数据帧直
2回复

如何根据我在 pyspark 中的前一行值为给定的时间戳添加分钟

我有一个 pyspark 数据框 现在我必须根据前一行中的值向 ReadDateTime 列添加 5 分钟。 我预期的数据框如下所示 我不会向与间隔 1 对应的 ReadDateTime 列添加 5 分钟,而我将继续向其他行添加 5 分钟,直到我的活动发生变化
1回复

使用 pyspark 在数据块中实现 FileNotFound 异常

我正在尝试在数据块中使用 pyspark 实现异常处理,其中我需要检查文件是否存在于源位置。 我希望有类似上面的代码片段,但是我无法采用这种方法。 我需要一些帮助,我真的很感激
1回复

迭代来自社区版 DBFS 位置的数据块中 pyspark 的文件

我想遍历 Databricks 中 DBFS 位置中可用的文件。 但它抛出一个错误,说“org.apache.spark.sql.AnalysisException:路径不存在:”这是我尝试过的代码: 错误是 org.apache.spark.sql.AnalysisException:路径不