簡體   English   中英

MLlib未在Spark 2.1中保存模型數據

[英]MLlib not saving the model data in Spark 2.1

我們有一個大致如下所示的機器學習模型:

sc = SparkContext(appName = "MLModel")
sqlCtx = SQLContext(sc)
df = sqlCtx.createDataFrame(data_res_promo) 
#where data_res promo comes from a pandas dataframe
indexer = StringIndexer(inputCol="Fecha_Code", outputCol="Fecha_Index")
train_indexer = indexer.fit(df)
train_indexer.save('ALSIndexer') #This saves the indexer architecture

在我的機器上,當我以本地方式運行它時,它將生成一個文件夾ALSIndexer /,其中包含鑲木地板和模型上的所有信息。

當我在Spark的Azure群集中運行它時,它不會在主節點(也不在從屬節點)中生成文件夾。 但是,如果我們嘗試重寫它,它說:

cannot overwrite folder

意思是在某個地方,但是我們找不到。

你有指針嗎?

默認情況下,Spark將文件保存到分布式文件系統(可能是HDFS)。 因此,這些文件將在節點本身上不可見,但是,如果存在這些文件,則會出現“無法覆蓋文件夾”錯誤消息。

您可以通過HDFS輕松訪問文件,以將其復制到主節點。 可以通過以下命令之一在命令行中完成此操作:

1.hadoop fs -get <HDFS file path> <Local system directory path>
2.hadoop fs -copyToLocal <HDFS file path> <Local system directory path>

也可以通過導入org.apache.hadoop.fs.FileSystem並利用那里可用的命令來完成。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM