繁体   English   中英

PySpark:从另一个 Notebook 导入变量时,如何抑制 PySpark 单元中的 %run 输出?

[英]PySpark: How can I suppress %run output in PySpark cell when importing variables from another Notebook?

我在 PySpark 中使用多个笔记本,并使用%run path在这些笔记本中导入变量。 每次运行命令时,我在原始笔记本中显示的所有变量都会再次显示在当前笔记本(我在其中运行的笔记本)中。 但我不希望它们显示在当前笔记本中。 我只想能够使用导入的变量。 如何抑制每次显示的输出? 请注意,我不确定这是否重要,但我在 DataBricks 中工作。 谢谢!

命令示例:

%run /Users/myemail/Nodebook

这是预期的行为,当您使用%run命令时,您可以在笔记本中包含另一个笔记本。 此命令可让您连接代表关键 ETL 步骤、Spark 分析步骤或临时探索的各种笔记本。 但是,它缺乏构建更复杂数据管道的能力。

在此处输入图片说明

Notebook 工作流是%run的补充,因为它们允许您从 Notebook 返回值。 这使您可以轻松构建具有依赖项的复杂工作流和管道。 您可以正确地参数化运行(例如,获取目录中的文件列表并将名称传递给另一个笔记本——这是%run 无法实现的),还可以根据返回值创建 if/then/else 工作流。 笔记本工作流允许您通过相对路径调用其他笔记本。

您可以使用 dbutils.notebook 方法实现笔记本工作流。 这些方法与所有 dbutils API 一样,仅在 Scala 和 Python 中可用。 但是,您可以使用 dbutils.notebook.run 来调用 R 笔记本。

有关更多详细信息,请参阅“ Databricks - Notebook 工作流”。

您可以使用单元格右上角切换中的“隐藏结果”选项: 在此处输入图片说明

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM