簡體   English   中英

在數據塊中導入 python 依賴項(無法導入模塊)

[英]import python dependencies in databricks (unable to import module)

我有一個示例項目 mypackg 結構如下:

- mypackg
    * appcode
        * __init__.py
        * file1.py
        * file2.py
    * dbutils
        * __init__.py
        * file3.py
    * start_point.py
    * __init__.py 

打包成mypackg.zip的代碼

本地系統測試工作正常

  • 通過sparkContext.addPyFile('path_to_zip')添加到 pyspark 並運行我的工作
  • 通過spark-submit --py-files 'path_to_zip' myjob.py像應用程序一樣運行

但是,當我嘗試在 Databricks 上做同樣的事情時 - 我無法導入模塊

import urllib 

urllib.request.urlretrieve("https://github.com/nikhilsarma/spark_utilities/blob/master/mydata.zip", "/databricks/driver/mydata.zip")

sc = spark.sparkContext.getOrCreate() and 
sc.addPyFile('/databricks/driver/mydata.zip')
sys.path.insert(0, r'/databricks/diver/mydata.zip')
sc = spark.sparkContext.getOrCreate()
sc.addPyFile(r'/databricks/driver/mydata.zip') 

from mypackg import start_point

錯誤:

ModuleNotFoundError: 沒有名為“mypackg”的模塊

這是我的 uri 中的錯誤。 而不是從 raw/master 下載,我是從 blob/master 下載的,這給了我一個我無法使用的文件。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM