[英]Parquet file after upload to Azure Data Lake gen 2 not readable (Python)
[英]Ways to import data from SQL Server 2016 to Azure Data Lake Gen 2
我正在尋找將多個維度和事實表從 SQL 服務器導入 Azure Data Lake Gen 2 的最安全方法。這就是我發現的:
選項 1 :Azure 數據工廠 這涉及成本,因此目前對我來說不是優選的解決方案。
選項 2 :來自 Azure Databricks 的 Python
2a) Apache 火花連接器
jdbcDF = spark.read \
.format("com.microsoft.sqlserver.jdbc.spark") \
.option("url", url) \
.option("dbtable", table_name) \
.option("user", username) \
.option("password", password).load()
2b) 內置 JDBC Spark SQL 連接器
2c) ODBC 驅動程序和 pyodbc package
2d) pymssql package
2e) JayDeBeApi
選項 3:SSIS package
我不確定我應該使用哪一個。 上述方法的優缺點是什么?
使用上述方法之一將數據讀入數據幀后,如何將它們保存到 Data Lake Gen2 存儲?
我們可以使用jdbc驅動將數據讀入數據幀。 出於安全原因,我們可以將連接字符串信息作為機密存儲在 Azure Keyvault 中,或者通過 CLI 使用 databricks 機密。
我們可以將它們保存為 parquet 文件並通過jdbcDF.write.parquet('dbfs:/path',mode='overwrite')
上傳到 ADL v2。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.