簡體   English   中英

在Spark 2解釋器下結合使用Zeppelin和Python

[英]Using Python with Zeppelin under the Spark 2 Interpreter

我已經在虛擬機上部署了HDP:2.6.4

我可以看到spark2沒有指向正確的python文件夾。 我的問題是

1)如何找到我的python所在的位置?

解決方案 :鍵入whereis python ,您將獲得它所在位置的列表

2)如何更新現有的python庫並將新的庫添加到該文件夾​​? 例如,相當於CLI上的'pip install numpy'。

  • 還不清楚

3)如何使Zeppelin Spark2指向包含我可以更新的python文件夾的特定目錄? -在Zeppelin上,有一個小的“編輯”按鈕,我可以將路徑更改為包含python的目錄。

解決方案 :轉到zeppelin中的解釋器,找到spark2,並使zeppelin.pyspark.python指向python已經存在的位置。

現在,如果您需要python 3.4+,則需要執行一系列不同的步驟,首先要將python 3.4。+放入HDP沙箱中。

謝謝,

對於像您這樣的沙盒環境,將在Linux OS(CentOS)上制作沙盒映像。 Zeppelin Notebook很可能指向每個Linux操作系統隨附的Python安裝。 如果您希望自己安裝Python和自己的數據分析庫,例如SciPy堆棧中的庫。 您需要在虛擬機上安裝Anaconda。 您的VM需要連接到互聯網,以便您可以下載並安裝Anaconda軟件包以進行測試。

然后,您可以將Zeppelin指向anaconda的目錄,直到以下路徑: / home / user / anaconda3 / bin / python其中user是您的用戶名

Zeppelin Configuration還確認了以下事實:它使用/usr/bin/python的默認python安裝。 您可以瀏覽其文檔以獲取更多信息

UPDATE

嗨,Joseph,Spark Installations,默認情況下使用Python解釋器和操作系統上已安裝的python庫。 您顯示的文件夾結構僅告訴您PySpark模塊的位置。 該模塊是類似於Pandas ior NumPy的庫。

您可以通過命令pip install package name安裝SciPy Stack [NumPy,Pandas,MatplotLib等。],然后將這些庫直接導入Zeppelin Notebook。

在snadbox的終端中使用whereis python命令,結果將為您提供以下內容/usr/bin/python /usr/bin/python2.7 ....

在Zeppelin配置中,可以為屬性zeppelin.pyspark.python設置上一個命令/usr/bin/python的輸出中的第一個值。 因此,現在您可以通過zeppelin使用pip install命令安裝的所有庫。

此過程僅適用於您的沙盒環境。 在實際的生產集群中,管理員需要在Spark集群的所有節點上安裝所有這些庫。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM