繁体   English   中英

如何重置 pyspark 中的检查点?

[英]How can I reset checkpoints in pyspark?

提示:本站为国内最大中英文翻译问答网站,提供中英文对照查看,鼠标放在中文字句上可显示英文原文

我在pyspark看表

df = spark.readStream.format("delta").load("mySourceTable")  

我用它写

df.writeStream.format("delta").outputMode("append").option("checkpointLocation", "/_checkpoints/myOutputTable").start(myOutputTable")

我的问题是如何删除所有检查点,以便 pyspark 从头而不是从上次读取的位置读取mySourceTable

谢谢你。

我不知道如何删除"/_checkpoints/myOutputTable").start(myOutputTable")中的检查点

我不知道如何删除 "/_checkpoints/myOutputTable").start(myOutputTable") 中的检查点

停止 Spark 应用程序后,您可以 go 直接到文件系统上的checkpointLocation目录(或存储表的任何位置,例如 S3)并移动/删除它。

当您随后重新启动 Spark 应用程序时,它将从头开始处理mySourceTable

问题未解决?试试本站强大的搜索功能,搜索: 如何重置 pyspark 中的检查点?
PySpark:完全清理检查点

[英]PySpark: fully cleaning checkpoints

根据文档,可以告诉 Spark 跟踪“超出范围”的检查点——那些不再需要的检查点——并从磁盘中清除它们。 SparkSession.builder ... .config("spark.cleaner.referenceTracking.cleanCheckpoints", "true") ...

如何在PySpark中压缩两个RDD?

[英]How can I zip two RDDs in PySpark?

我一直在尝试将averagePoints1和kpoints2下面的两个Rdds合并。 它不断抛出此错误 并且我尝试了很多事情,但是我不能使两个Rdds相同,具有相同的分区数。 我的下一步是在两个列表上应用欧几里德距离函数来测量差异,因此,如果有人知道如何解决此错误或有不同的方法,我可 ...

如何在pyspark中获得百分比频率

[英]How can I obtain percentage frequencies in pyspark

我想在pyspark获得百分比频率。 我在python中这样做了如下 获得频率非常简单: 如何从此处获得百分比频率? 我尝试了一堆运气不大的东西。 任何帮助,将不胜感激。 ...

我如何在pyspark中绘制直方图

[英]how can i plot a histogram in pyspark

我是pyspark的新手,下面是tabe,我想绘制此df的直方图,x轴将包括“ word”,轴将包括“ count”列。 你有什么主意吗 ? ...

2019-02-25 16:43:19 1 854   pyspark
如何在 pyspark 中调整 GBTClassifier 中的阈值

[英]how can i adjust the threshold in GBTClassifier in pyspark

pyspark中的GBTClassifier模型好像没有办法设置阈值。 它确实出现在 Explainparams() 中,但没有出现在 pyspark 的构造函数或 set 函数中。 如果是,请告知如何完成,如果不是 - 我如何调整我的模型以更好地预测我在二元分类问题中的类? ...

如何在 PySpark 中进行嵌套转换

[英]How I can have a nested transformation in PySpark

这是我的数据示例: 从之前的数据中得到以下信息: 注意:请注意,RDD 数据 2 的嵌套列表包含该词在 RDD 数据 1 中的每个元素中被提及的次数我想要的是应用以下代码: 输出应该是包含给定单词的 data1 中的列表或元素。 例如:如果“红色”这个词传递给循环然后过滤,它应该给我来自 ...

如何使用 pyspark 将字符串转换为日期时间?

[英]how can i convert a string to datetime with pyspark?

这是我的第一个问题,所以我希望你能帮助我。 我在数据块社区中创建了一个 dataframe pyspark 我想将“输入”列转换为日期时间或日期(最好是日期时间) 首先,我试图将列“输入”转换为时间戳,但我不知道我是否走错了路。 我收到以下错误 ...

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2023 STACKOOM.COM