將存儲為 Azure Blob 的 CSV 直接加載到 Pandas 數據幀中，而無需先保存到磁盤

Question

The article Explore data in Azure blob storage with pandas ( here ) shows how to load data from an Azure Blob Store into a Pandas data frame.

他們首先下載 blob 並將其作為 CSV 文件在本地存儲，然后將該 CSV 文件加載到數據幀中。

import pandas as pd
from azure.storage.blob import BlockBlobService

blob_service = BlockBlobService(account_name=STORAGEACCOUNTNAME, account_key=STORAGEACCOUNTKEY)
blob_service.get_blob_to_path(CONTAINERNAME, BLOBNAME, LOCALFILENAME)
dataframe_blobdata = pd.read_csv(LOCALFILE)

有沒有辦法將 blob 直接拉入數據幀而不先將其保存到本地磁盤？

Answer 1

你可以嘗試這樣的事情（使用StringIO ）：

import pandas as pd
from azure.storage.blob import BlockBlobService
from io import StringIO

blob_service = BlockBlobService(account_name=STORAGEACCOUNTNAME, account_key=STORAGEACCOUNTKEY)
blob_string = blob_service.get_blob_to_text(CONTAINERNAME, BLOBNAME)
dataframe_blobdata = pd.read_csv(StringIO(blobstring))

請注意，該文件將存儲在內存中，這意味着如果它是一個大文件，則可能會導致MemoryError （也許您可以嘗試del blob_string以便在您獲得 dataframe、idk 中的數據后釋放 memory）。

我對 Azure DataLake Storage Gen2（它使用 Azure Blob Storage）或多或少做了同樣的事情。

希望能幫助到你。

將存儲為 Azure Blob 的 CSV 直接加載到 Pandas 數據幀中，而無需先保存到磁盤

問題描述

1 個解決方案

解決方案1
1 2019-11-22 16:30:49

將存儲為 Azure Blob 的 CSV 直接加載到 Pandas 數據幀中，而無需先保存到磁盤

問題描述

1 個解決方案

解決方案1 1 2019-11-22 16:30:49

解決方案1
1 2019-11-22 16:30:49