[英]PySpark on Windows: Hive issues
我正在嘗試從Mllib運行LogisticRegressionWithLBFGS,但遇到很多Hive問題:
py4j.protocol.Py4JJavaError: An error occurred while calling o337.trainLogisticRegressionModelWithLBFGS.
: org.apache.spark.sql.AnalysisException: java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient;
事實是我什至沒有安裝Hive。但是為什么此功能依賴Hive? 它沒有寫在文檔中的任何地方...是安裝Hive來運行任何Mllib函數的前提條件嗎?
不需要進行Hive安裝,但是Spark需要與Hive兼容的類才能對DataFrame對象(例如ML管道步驟中的對象)進行操作。
據我pip install pyspark
,例如, pip install pyspark
並不隨這些(或任何Hadoop)庫一起提供。
如果您從Apache站點下載了Spark with Hadoop,那么您將獲得Hive庫和bin/pyspark
腳本。 但是,在Windows上,您可能需要設置WinUtils。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.