簡體   English   中英

有沒有辦法遍歷完整的 Databricks 筆記本(pySpark)?

[英]Is there a way to loop through a complete Databricks notebook (pySpark)?

讓我們舉個例子。 我正在處理一個大型數據集,並希望每周都對我的治療進行補充。 我的進程現在分為多個塊/命令。

我的問題是,是否可以在所有筆記本上循環,還是應該將所有代碼/處理重新組合在同一塊中?

例如,在 2021 年 1 月工作。我想讓代碼每周運行一次,給他starting date ,從這個日期運行到day+7 ,應用所有處理並存儲結果,從day+8更新我的start變量day+8 ,直到它達到固定的限制,例如 31 月。

有沒有辦法在不重新組合同一塊中的所有代碼的情況下做到這一點? 作為 « run all above // all below command in line ? »

您可以通過更改筆記本以通過widgets接受參數來實現此目的,然后您可以觸發此筆記本,例如,作為 Databricks 作業或使用dbutils.notebook.run從另一個將實現循環( doc )的筆記本中,傳遞必要的日期作為參數。

這將會:

  • 在您的原始筆記本中:
starting_date = dbutils.widgets.get("starting_date")
.... your code
  • 在調用筆記本中(60 是超時,可能會更高,具體取決於轉換量):
dbutils.notebooks.run("path_to_orginal_notebook", 60, 
   {"starting_date": "2021-01-01"})

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM