
[英]PySpark: fully cleaning checkpoints
根据文档,可以告诉 Spark 跟踪“超出范围”的检查点——那些不再需要的检查点——并从磁盘中清除它们。 SparkSession.builder ... .config("spark.cleaner.referenceTracking.cleanCheckpoints", "true") ...
[英]How can I reset checkpoints in pyspark?
提示:本站为国内最大中英文翻译问答网站,提供中英文对照查看,鼠标放在中文字句上可显示英文原文。
我在pyspark看表
df = spark.readStream.format("delta").load("mySourceTable")
我用它写
df.writeStream.format("delta").outputMode("append").option("checkpointLocation", "/_checkpoints/myOutputTable").start(myOutputTable")
我的问题是如何删除所有检查点,以便 pyspark 从头而不是从上次读取的位置读取mySourceTable
?
谢谢你。
我不知道如何删除"/_checkpoints/myOutputTable").start(myOutputTable")
中的检查点
我不知道如何删除 "/_checkpoints/myOutputTable").start(myOutputTable") 中的检查点
停止 Spark 应用程序后,您可以 go 直接到文件系统上的checkpointLocation
目录(或存储表的任何位置,例如 S3)并移动/删除它。
当您随后重新启动 Spark 应用程序时,它将从头开始处理mySourceTable
。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.