簡體   English   中英

Windows上的PySpark:蜂巢問題

[英]PySpark on Windows: Hive issues

我正在嘗試從Mllib運行LogisticRegressionWithLBFGS,但遇到很多Hive問題:

py4j.protocol.Py4JJavaError: An error occurred while calling o337.trainLogisticRegressionModelWithLBFGS.
: org.apache.spark.sql.AnalysisException: java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient;

事實是我什至沒有安裝Hive。但是為什么此功能依賴Hive? 它沒有寫在文檔中的任何地方...是安裝Hive來運行任何Mllib函數的前提條件嗎?

不需要進行Hive安裝,但是Spark需要與Hive兼容的類才能對DataFrame對象(例如ML管道步驟中的對象)進行操作。

據我pip install pyspark ,例如, pip install pyspark並不隨這些(或任何Hadoop)庫一起提供。

如果您從Apache站點下載了Spark with Hadoop,那么您將獲得Hive庫和bin/pyspark腳本。 但是,在Windows上,您可能需要設置WinUtils。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM