簡體   English   中英

Azure Databricks 與 Python 腳本

[英]Azure Databricks with Python scripts

我是 Python 的新手。 在 Azure 數據塊方面需要幫助。

設想:

目前我正在開發一個使用 HDInsight 集群提交 Spark 作業的項目,他們使用 Python 腳本和位於邊緣節點 /bin/ 文件夾中的類和函數 [.py]。

我們建議使用 Databricks 而不是 HDInsight 群集,並且 PoC 需要最少的工作量。

疑點:

  1. 在 HDInsight 群集中,所有 python 腳本都存儲在 /bin/ 文件夾中,帶有 .yml 的 conf 文件存儲在 /conf/ 文件夾中。

我們能否在 databricks DBFS 中復制相同的結構,從而使復制位置的代碼更改最少。

2.我是 Python 的新手,我在 /bin/ 文件夾中有一堆腳本。 如何在數據塊中上傳或安裝這些腳本。

我的假設是,我需要創建一個 package 並作為庫安裝在集群上。 如果我錯了,請糾正我。

  1. 如何從 Databricks 運行 Python 腳本。

@Sathya 您能否提供有關不同 python 腳本以及配置文件的作用的更多信息?

至於 python 腳本,根據它們的 function 是什么,您可以在 Databricks 中創建一個或多個 python 筆記本並將內容復制到其中。 然后,您可以將這些筆記本作為作業的一部分運行,或者使用%run /path/to/notebook在其他筆記本中引用它們

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM