[英]Is there a way to loop through a complete Databricks notebook (pySpark)?
讓我們舉個例子。 我正在處理一個大型數據集,並希望每周都對我的治療進行補充。 我的進程現在分為多個塊/命令。
我的問題是,是否可以在所有筆記本上循環,還是應該將所有代碼/處理重新組合在同一塊中?
例如,在 2021 年 1 月工作。我想讓代碼每周運行一次,給他starting date
,從這個日期運行到day+7
,應用所有處理並存儲結果,從day+8
更新我的start
變量day+8
,直到它達到固定的限制,例如 31 月。
有沒有辦法在不重新組合同一塊中的所有代碼的情況下做到這一點? 作為 « run all above
// all below
command in line ? »
您可以通過更改筆記本以通過widgets接受參數來實現此目的,然后您可以觸發此筆記本,例如,作為 Databricks 作業或使用dbutils.notebook.run
從另一個將實現循環( doc )的筆記本中,傳遞必要的日期作為參數。
這將會:
starting_date = dbutils.widgets.get("starting_date")
.... your code
dbutils.notebooks.run("path_to_orginal_notebook", 60,
{"starting_date": "2021-01-01"})
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.