簡體 English 中英

Windows上的PySpark：蜂巢問題

[英]PySpark on Windows: Hive issues

原文 2018-07-30 21:58:41 3 1 python/ apache-spark/ hive/ pyspark

我正在嘗試從Mllib運行LogisticRegressionWithLBFGS，但遇到很多Hive問題：

py4j.protocol.Py4JJavaError: An error occurred while calling o337.trainLogisticRegressionModelWithLBFGS.
: org.apache.spark.sql.AnalysisException: java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient;

事實是我什至沒有安裝Hive。但是為什么此功能依賴Hive？ 它沒有寫在文檔中的任何地方...是安裝Hive來運行任何Mllib函數的前提條件嗎？

1 個解決方案

不需要進行Hive安裝，但是Spark需要與Hive兼容的類才能對DataFrame對象（例如ML管道步驟中的對象）進行操作。

據我pip install pyspark ，例如， pip install pyspark並不隨這些（或任何Hadoop）庫一起提供。

如果您從Apache站點下載了Spark with Hadoop，那么您將獲得Hive庫和bin/pyspark腳本。 但是，在Windows上，您可能需要設置WinUtils。

Pyspark無法到達配置單元

[英]Pyspark cannot reach hive

透視登錄蜂巢或pyspark

[英]Pivot log in hive or pyspark

將 hive 查詢轉換為 pyspark

[英]Convert hive queries to pyspark

Pyspark將數據寫入配置單元

[英]Pyspark writing data into hive

PySpark/HIVE：附加到現有表

[英]PySpark/HIVE: append to an existing table

處理 Pyspark/Hive 中不斷變化的數據類型

[英]Handling changing datatypes in Pyspark/Hive

PySpark Hive SQL-未插入數據

[英]PySpark Hive SQL - No data inserted

使用pyspark連接到配置單元表

[英]Using pyspark to connect to hive tables

使用 Hive/Pyspark 的模糊列引用

[英]Ambiguous Column Reference with Hive/Pyspark

安裝和運行 Pyspark 的問題

[英]Issues Installing And Running Pyspark

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 Pyspark無法到達配置單元透視登錄蜂巢或pyspark 將 hive 查詢轉換為 pyspark Pyspark將數據寫入配置單元 PySpark/HIVE：附加到現有表處理 Pyspark/Hive 中不斷變化的數據類型 PySpark Hive SQL-未插入數據使用pyspark連接到配置單元表使用 Hive/Pyspark 的模糊列引用安裝和運行 Pyspark 的問題

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM