簡體 English 中英

有沒有辦法遍歷完整的 Databricks 筆記本（pySpark）？

[英]Is there a way to loop through a complete Databricks notebook (pySpark)?

原文 2021-10-17 07:25:52 8 1 pyspark/ databricks/ azure-databricks

讓我們舉個例子。 我正在處理一個大型數據集，並希望每周都對我的治療進行補充。 我的進程現在分為多個塊/命令。

我的問題是，是否可以在所有筆記本上循環，還是應該將所有代碼/處理重新組合在同一塊中？

例如，在 2021 年 1 月工作。我想讓代碼每周運行一次，給他starting date ，從這個日期運行到day+7 ，應用所有處理並存儲結果，從day+8更新我的start變量day+8 ，直到它達到固定的限制，例如 31 月。

有沒有辦法在不重新組合同一塊中的所有代碼的情況下做到這一點？ 作為 « run all above // all below command in line ？ »

1 個解決方案

您可以通過更改筆記本以通過widgets接受參數來實現此目的，然后您可以觸發此筆記本，例如，作為 Databricks 作業或使用dbutils.notebook.run從另一個將實現循環（ doc ）的筆記本中，傳遞必要的日期作為參數。

這將會：

在您的原始筆記本中：

starting_date = dbutils.widgets.get("starting_date")
.... your code

在調用筆記本中（60 是超時，可能會更高，具體取決於轉換量）：

dbutils.notebooks.run("path_to_orginal_notebook", 60, 
   {"starting_date": "2021-01-01"})

PySpark 在筆記本中等待完成（Databricks）

[英]PySpark Wait to finish in notebook (Databricks)

通過 Databricks 筆記本中的 pyspark 讀取 url

[英]Reading url via pyspark in Databricks notebook

使用 Databricks 的 pyspark 循環出錯

[英]Error in Loop with pyspark using Databricks

遍歷數據塊倉庫中的表並使用 pyspark 將某些值提取到另一個增量表中

[英]loop through tables in databricks warehouse and extract certain values into another delta table with pyspark

如何使用 pyspark 在數據塊中循環 dataframe 列

[英]How to loop dataframe column in databricks using pyspark

如何在 Databricks 筆記本中的 pyspark 中聯合多個數據幀

[英]How to union multiple dataframe in pyspark within Databricks notebook

如何在 Databricks pyspark 筆記本中包含額外的庫/包？

[英]How can I include extra library/package in Databricks pyspark notebook?

如何使用 Python / Pyspark 在 Databricks 筆記本中合並數據幀

[英]How to merge dataframes in Databricks notebook using Python / Pyspark

如何使用正則表達式從 PySpark 數據塊筆記本中的文件解析表名

[英]How to use regex to parse the Tablename from a file in PySpark databricks notebook

有沒有辦法在 Databricks 上測試我的 Pyspark 筆記本

[英]Is there way to test my Pyspark notebooks on Databricks

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 PySpark 在筆記本中等待完成（Databricks）通過 Databricks 筆記本中的 pyspark 讀取 url 使用 Databricks 的 pyspark 循環出錯遍歷數據塊倉庫中的表並使用 pyspark 將某些值提取到另一個增量表中如何使用 pyspark 在數據塊中循環 dataframe 列如何在 Databricks 筆記本中的 pyspark 中聯合多個數據幀如何在 Databricks pyspark 筆記本中包含額外的庫/包？如何使用 Python / Pyspark 在 Databricks 筆記本中合並數據幀如何使用正則表達式從 PySpark 數據塊筆記本中的文件解析表名有沒有辦法在 Databricks 上測試我的 Pyspark 筆記本

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM