MLlib未在Spark 2.1中保存模型數據

Question

我們有一個大致如下所示的機器學習模型：

sc = SparkContext(appName = "MLModel")
sqlCtx = SQLContext(sc)
df = sqlCtx.createDataFrame(data_res_promo) 
#where data_res promo comes from a pandas dataframe
indexer = StringIndexer(inputCol="Fecha_Code", outputCol="Fecha_Index")
train_indexer = indexer.fit(df)
train_indexer.save('ALSIndexer') #This saves the indexer architecture

在我的機器上，當我以本地方式運行它時，它將生成一個文件夾ALSIndexer /，其中包含鑲木地板和模型上的所有信息。

當我在Spark的Azure群集中運行它時，它不會在主節點（也不在從屬節點）中生成文件夾。 但是，如果我們嘗試重寫它，它說：

cannot overwrite folder

意思是在某個地方，但是我們找不到。

你有指針嗎？

Answer 1

默認情況下，Spark將文件保存到分布式文件系統（可能是HDFS）。 因此，這些文件將在節點本身上不可見，但是，如果存在這些文件，則會出現“無法覆蓋文件夾”錯誤消息。

您可以通過HDFS輕松訪問文件，以將其復制到主節點。 可以通過以下命令之一在命令行中完成此操作：

1.hadoop fs -get <HDFS file path> <Local system directory path>
2.hadoop fs -copyToLocal <HDFS file path> <Local system directory path>

也可以通過導入org.apache.hadoop.fs.FileSystem並利用那里可用的命令來完成。

MLlib未在Spark 2.1中保存模型數據

問題描述

1 個解決方案

解決方案1
1 已采納 2017-05-25 01:46:47

MLlib未在Spark 2.1中保存模型數據

問題描述

1 個解決方案

解決方案1 1 已采納 2017-05-25 01:46:47

解決方案1
1 已采納 2017-05-25 01:46:47