如何在 PySpark 中覆蓋 Spark ML model？

Question

from pyspark.ml.regression import RandomForestRegressionModel

rf = RandomForestRegressor(labelCol="label",featuresCol="features", numTrees=5, maxDepth=10, seed=42)
rf_model = rf.fit(train_df)
rf_model_path = "./hdfsData/" + "rfr_model"
rf_model.save(rf_model_path)

當我第一次嘗試保存 model 時，這些行有效。 但是當我想再次將 model 保存到路徑中時，它給出了這個錯誤：

Py4JJavaError：調用 o1695.save 時出錯。 ：java.io.IOException：路徑./hdfsData/rfr_model 已經存在。 請使用 write.overwrite().save(path) 來覆蓋它。

然后我嘗試了：

rf_model.write.overwrite().save(rf_model_path)

它給出了：

AttributeError: 'function' object 沒有屬性 'overwrite'

似乎pyspark.mllib模塊給出了覆蓋 function 但不是pyspark.ml模塊。 如果我想用新的 model 覆蓋舊的 model，有人知道如何解決這個問題嗎？ 謝謝。

Answer 1

您看到的消息是 Java 錯誤消息，而不是 Python 錯誤消息。 您應該先調用write方法：

rf_model.write().overwrite().save(rf_model_path)

Answer 2

顯然在Scala中它可以使用

rf_model.write.overwrite.save(rf_model_path)

Answer 3

您必須刪除在第一次運行期間已創建的文件夾，然后重新運行您的代碼。

如何在 PySpark 中覆蓋 Spark ML model？

問題描述

3 個解決方案

解決方案1
22 已采納 2017-02-17 17:49:44

解決方案2
0 2021-02-11 22:44:44

解決方案3
-1 2021-10-05 10:45:45

如何在 PySpark 中覆蓋 Spark ML model？

問題描述

3 個解決方案

解決方案1 22 已采納 2017-02-17 17:49:44

解決方案2 0 2021-02-11 22:44:44

解決方案3 -1 2021-10-05 10:45:45

解決方案1
22 已采納 2017-02-17 17:49:44

解決方案2
0 2021-02-11 22:44:44

解決方案3
-1 2021-10-05 10:45:45