將數據從 SQL Server 2016 導入到 Azure Data Lake Gen 2 的方法

Question

我正在尋找將多個維度和事實表從 SQL 服務器導入 Azure Data Lake Gen 2 的最安全方法。這就是我發現的：

選項 1 ：Azure 數據工廠這涉及成本，因此目前對我來說不是優選的解決方案。

選項 2 ：來自 Azure Databricks 的 Python

2a) Apache 火花連接器

jdbcDF = spark.read \
        .format("com.microsoft.sqlserver.jdbc.spark") \
        .option("url", url) \
        .option("dbtable", table_name) \
        .option("user", username) \
        .option("password", password).load()

2b) 內置 JDBC Spark SQL 連接器

2c) ODBC 驅動程序和 pyodbc package

2d) pymssql package

2e) JayDeBeApi

選項 3：SSIS package

我不確定我應該使用哪一個。 上述方法的優缺點是什么？

使用上述方法之一將數據讀入數據幀后，如何將它們保存到 Data Lake Gen2 存儲？

Answer 1

我們可以使用jdbc驅動將數據讀入數據幀。 出於安全原因，我們可以將連接字符串信息作為機密存儲在 Azure Keyvault 中，或者通過 CLI 使用 databricks 機密。
我們可以將它們保存為 parquet 文件並通過jdbcDF.write.parquet('dbfs:/path',mode='overwrite')上傳到 ADL v2。

將數據從 SQL Server 2016 導入到 Azure Data Lake Gen 2 的方法

問題描述

1 個解決方案

解決方案1
0 2020-12-17 08:57:45

將數據從 SQL Server 2016 導入到 Azure Data Lake Gen 2 的方法

問題描述

1 個解決方案

解決方案1 0 2020-12-17 08:57:45

解決方案1
0 2020-12-17 08:57:45