[英]Azure Databricks Python Job
我需要在 Azure 中近乎實時地解析大量小型非結構化文件,並將解析后的數據加載到 SQL 數據庫中。 我選擇了 Python (因為我認為考慮到源文件的數量和它們的大小,我認為任何 Spark 集群或大數據都不適合)並且解析邏輯已經寫好了。 我期待使用 Azure PaaS 以不同方式安排此 python 腳本
請問從 Azure 數據工廠運行 Python 筆記本活動指向 Azure Databricks 的含義是什么? 我是否能夠充分利用集群(驅動程序和工人)的潛力?
另外,如果您認為必須將腳本轉換為 PySpark 才能滿足我在 Azure Databricks 中運行的用例要求,請給我建議? 這里唯一的猶豫是文件以 KB 為單位,並且它們是非結構化的。
如果腳本是純 Python,那么它只會在 Databricks 集群的驅動程序節點上運行,這使得它非常昂貴(並且由於集群啟動時間而變慢)。
您可以重寫為 pyspark,但如果數據量如您所說的那么低,那么這仍然昂貴且緩慢。 最小的集群將消耗兩個虛擬機 - 每個有 4 個內核。
我會考慮使用 Azure Functions。 Python 現在是一個選項: https : //docs.microsoft.com/en-us/azure/python/tutorial-vs-code-serverless-python-01
Azure Functions 還與 Azure 數據工廠有很好的集成,因此您的工作流仍然可以工作。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.