[英]Azure Databricks Python Job
我需要在 Azure 中近乎实时地解析大量小型非结构化文件,并将解析后的数据加载到 SQL 数据库中。 我选择了 Python (因为我认为考虑到源文件的数量和它们的大小,我认为任何 Spark 集群或大数据都不适合)并且解析逻辑已经写好了。 我期待使用 Azure PaaS 以不同方式安排此 python 脚本
请问从 Azure 数据工厂运行 Python 笔记本活动指向 Azure Databricks 的含义是什么? 我是否能够充分利用集群(驱动程序和工人)的潜力?
另外,如果您认为必须将脚本转换为 PySpark 才能满足我在 Azure Databricks 中运行的用例要求,请给我建议? 这里唯一的犹豫是文件以 KB 为单位,并且它们是非结构化的。
如果脚本是纯 Python,那么它只会在 Databricks 集群的驱动程序节点上运行,这使得它非常昂贵(并且由于集群启动时间而变慢)。
您可以重写为 pyspark,但如果数据量如您所说的那么低,那么这仍然昂贵且缓慢。 最小的集群将消耗两个虚拟机 - 每个有 4 个内核。
我会考虑使用 Azure Functions。 Python 现在是一个选项: https : //docs.microsoft.com/en-us/azure/python/tutorial-vs-code-serverless-python-01
Azure Functions 还与 Azure 数据工厂有很好的集成,因此您的工作流仍然可以工作。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.