通過 R 訪問 Azure Blob 存儲

Question

我正在嘗試使用 R 從我存儲了一些 CSV 文件的位置連接到 Azure Blob。 在將它們寫回另一個 Blob 容器之前，我需要將它們加載到數據框中並對它們進行一些轉換。 我正在嘗試通過 Databricks 執行此操作，因此我最終可以從 Data Factories 調用此筆記本並將其包含在管道中。

Databricks 為我提供了一個 Python 示例筆記本，其中可以使用以下代碼建立連接：

storage_account_name = "testname"
storage_account_access_key = "..."
file_location = "wasb://example@testname.blob.core.windows.net/testfile.csv"

spark.conf.set(
  "fs.azure.account.key."+storage_account_name+".blob.core.windows.net",
  storage_account_access_key)

df = spark.read.format('csv').load(file_location, header = True, inferSchema = True)

R中有類似的東西嗎？ 我可以在 R 中使用 SparkR 或 Sparklyr 包，如果它可以幫助我加載文件並將其放入 Spark 數據幀中。

Answer 1

供您參考，我已被告知 R 無法進行實際安裝。 解決方法是使用另一種語言（如 Python）掛載並使用庫“SparkR”讀取文件，如下所示。

為 Spark 提供 R 接口的兩個最常用的庫是 SparkR 和 sparklyr。 Databricks 筆記本和作業支持這兩個包，但不能將 SparkR 和 sparklyr 的函數用於同一對象。

使用 Python 掛載：

使用庫“SparkR”運行 R notebook：

通過 R 訪問 Azure Blob 存儲

問題描述

1 個解決方案

解決方案1
3 已采納 2020-03-13 10:25:39

通過 R 訪問 Azure Blob 存儲

問題描述

1 個解決方案

解決方案1 3 已采納 2020-03-13 10:25:39

解決方案1
3 已采納 2020-03-13 10:25:39