簡體 English 中英

Azure Databricks Python 作業

[英]Azure Databricks Python Job

原文 2019-12-26 07:27:31 6 1 python/ azure/ azure-data-factory/ azure-databricks

我需要在 Azure 中近乎實時地解析大量小型非結構化文件，並將解析后的數據加載到 SQL 數據庫中。 我選擇了 Python （因為我認為考慮到源文件的數量和它們的大小，我認為任何 Spark 集群或大數據都不適合）並且解析邏輯已經寫好了。 我期待使用 Azure PaaS 以不同方式安排此 python 腳本

Azure 數據工廠
Azure 數據塊
都 1+2

請問從 Azure 數據工廠運行 Python 筆記本活動指向 Azure Databricks 的含義是什么？ 我是否能夠充分利用集群（驅動程序和工人）的潛力？

另外，如果您認為必須將腳本轉換為 PySpark 才能滿足我在 Azure Databricks 中運行的用例要求，請給我建議？ 這里唯一的猶豫是文件以 KB 為單位，並且它們是非結構化的。

1 個解決方案

如果腳本是純 Python，那么它只會在 Databricks 集群的驅動程序節點上運行，這使得它非常昂貴（並且由於集群啟動時間而變慢）。

您可以重寫為 pyspark，但如果數據量如您所說的那么低，那么這仍然昂貴且緩慢。 最小的集群將消耗兩個虛擬機 - 每個有 4 個內核。

我會考慮使用 Azure Functions。 Python 現在是一個選項： https : //docs.microsoft.com/en-us/azure/python/tutorial-vs-code-serverless-python-01

Azure Functions 還與 Azure 數據工廠有很好的集成，因此您的工作流仍然可以工作。

在Azure Databricks Job中運行python包.egg

[英]Running python package .egg in Azure Databricks Job

Azure Databricks Python 來自多個 python 文件的作業

[英]Azure Databricks Python Job from several python files

Azure Databricks 與 Python 腳本

[英]Azure Databricks with Python scripts

Azure Databricks 中的 Python 版本

[英]Python Version in Azure Databricks

有沒有辦法在 Azure Databricks 中將參數動態傳遞給作業？

[英]Is there a way to pass parameters to a job dynamically in Azure Databricks?

Azure Databricks：Python 並行循環

[英]Azure Databricks: Python parallel for loop

Azure databricks msal 庫 python 2 代替 python 3

[英]Azure databricks msal library python 2 instead of python 3

Azure 數據工廠運行 Databricks Python 車輪

[英]Azure Data Factory run Databricks Python Wheel

在 Azure 函數中調用 Databricks Python 筆記本

[英]Calling Databricks Python notebook in Azure function

如何使用 dbfs 之外的 Python 文件創建 Databricks 作業？

[英]How to create a Databricks job using a Python file outside of dbfs?

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 在Azure Databricks Job中運行python包.egg Azure Databricks Python 來自多個 python 文件的作業 Azure Databricks 與 Python 腳本 Azure Databricks 中的 Python 版本有沒有辦法在 Azure Databricks 中將參數動態傳遞給作業？ Azure Databricks：Python 並行循環 Azure databricks msal 庫 python 2 代替 python 3 Azure 數據工廠運行 Databricks Python 車輪在 Azure 函數中調用 Databricks Python 筆記本如何使用 dbfs 之外的 Python 文件創建 Databricks 作業？

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM