繁体 English 中英

Azure Databricks Python 作业

[英]Azure Databricks Python Job

原文 2019-12-26 07:27:31 0 1 python/ azure/ azure-data-factory/ azure-databricks

我需要在 Azure 中近乎实时地解析大量小型非结构化文件，并将解析后的数据加载到 SQL 数据库中。 我选择了 Python （因为我认为考虑到源文件的数量和它们的大小，我认为任何 Spark 集群或大数据都不适合）并且解析逻辑已经写好了。 我期待使用 Azure PaaS 以不同方式安排此 python 脚本

Azure 数据工厂
Azure 数据块
都 1+2

请问从 Azure 数据工厂运行 Python 笔记本活动指向 Azure Databricks 的含义是什么？ 我是否能够充分利用集群（驱动程序和工人）的潜力？

另外，如果您认为必须将脚本转换为 PySpark 才能满足我在 Azure Databricks 中运行的用例要求，请给我建议？ 这里唯一的犹豫是文件以 KB 为单位，并且它们是非结构化的。

1 个解决方案

如果脚本是纯 Python，那么它只会在 Databricks 集群的驱动程序节点上运行，这使得它非常昂贵（并且由于集群启动时间而变慢）。

您可以重写为 pyspark，但如果数据量如您所说的那么低，那么这仍然昂贵且缓慢。 最小的集群将消耗两个虚拟机 - 每个有 4 个内核。

我会考虑使用 Azure Functions。 Python 现在是一个选项： https : //docs.microsoft.com/en-us/azure/python/tutorial-vs-code-serverless-python-01

Azure Functions 还与 Azure 数据工厂有很好的集成，因此您的工作流仍然可以工作。

在Azure Databricks Job中运行python包.egg

[英]Running python package .egg in Azure Databricks Job

Azure Databricks Python 来自多个 python 文件的作业

[英]Azure Databricks Python Job from several python files

Azure Databricks 与 Python 脚本

[英]Azure Databricks with Python scripts

Azure Databricks 中的 Python 版本

[英]Python Version in Azure Databricks

有没有办法在 Azure Databricks 中将参数动态传递给作业？

[英]Is there a way to pass parameters to a job dynamically in Azure Databricks?

Azure Databricks：Python 并行循环

[英]Azure Databricks: Python parallel for loop

Azure databricks msal 库 python 2 代替 python 3

[英]Azure databricks msal library python 2 instead of python 3

Azure 数据工厂运行 Databricks Python 车轮

[英]Azure Data Factory run Databricks Python Wheel

在 Azure 函数中调用 Databricks Python 笔记本

[英]Calling Databricks Python notebook in Azure function

如何使用 dbfs 之外的 Python 文件创建 Databricks 作业？

[英]How to create a Databricks job using a Python file outside of dbfs?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 在Azure Databricks Job中运行python包.egg Azure Databricks Python 来自多个 python 文件的作业 Azure Databricks 与 Python 脚本 Azure Databricks 中的 Python 版本有没有办法在 Azure Databricks 中将参数动态传递给作业？ Azure Databricks：Python 并行循环 Azure databricks msal 库 python 2 代替 python 3 Azure 数据工厂运行 Databricks Python 车轮在 Azure 函数中调用 Databricks Python 笔记本如何使用 dbfs 之外的 Python 文件创建 Databricks 作业？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM