簡體   English   中英

Azure Databricks Python 作業

[英]Azure Databricks Python Job

我需要在 Azure 中近乎實時地解析大量小型非結構化文件,並將解析后的數據加載到 SQL 數據庫中。 我選擇了 Python (因為我認為考慮到源文件的數量和它們的大小我認為任何 Spark 集群或大數據都不適合)並且解析邏輯已經寫好了。 我期待使用 Azure PaaS 以不同方式安排此 python 腳本

  1. Azure 數據工廠
  2. Azure 數據塊
  3. 都 1+2

請問從 Azure 數據工廠運行 Python 筆記本活動指向 Azure Databricks 的含義是什么? 我是否能夠充分利用集群(驅動程序和工人)的潛力?

另外,如果您認為必須將腳本轉換為 PySpark 才能滿足我在 Azure Databricks 中運行的用例要求,請給我建議? 這里唯一的猶豫是文件以 KB 為單位,並且它們是非結構化的。

如果腳本是純 Python,那么它只會在 Databricks 集群的驅動程序節點上運行,這使得它非常昂貴(並且由於集群啟動時間而變慢)。

您可以重寫為 pyspark,但如果數據量如您所說的那么低,那么這仍然昂貴且緩慢。 最小的集群將消耗兩個虛擬機 - 每個有 4 個內核。

我會考慮使用 Azure Functions。 Python 現在是一個選項: https : //docs.microsoft.com/en-us/azure/python/tutorial-vs-code-serverless-python-01

Azure Functions 還與 Azure 數據工廠有很好的集成,因此您的工作流仍然可以工作。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM