內存錯誤：在python中從BLOB讀取大的.txt文件時

Question

我正在嘗試從python中的Azure blob讀取較大的（〜1.5 GB）.txt文件，這會導致內存錯誤。 有沒有一種方法可以有效地讀取此文件？

以下是我嘗試運行的代碼：

from azure.storage.blob import BlockBlobService
import pandas as pd
from io import StringIO
import time

STORAGEACCOUNTNAME= '*********'
STORAGEACCOUNTKEY= "********"

CONTAINERNAME= '******'
BLOBNAME= 'path/to/blob'

blob_service = BlockBlobService(account_name=STORAGEACCOUNTNAME, account_key=STORAGEACCOUNTKEY)

start = time.time()
blobstring = blob_service.get_blob_to_text(CONTAINERNAME,BLOBNAME).content

df = pd.read_csv(StringIO(blobstring))
end = time.time()

print("Time taken = ",end-start)

以下是錯誤的最后幾行：

---> 16 blobstring = blob_service.get_blob_to_text(CONTAINERNAME,BLOBNAME)
     17 
     18 #df = pd.read_csv(StringIO(blobstring))

~/anaconda3_420/lib/python3.5/site-packages/azure/storage/blob/baseblobservice.py in get_blob_to_text(self, container_name, blob_name, encoding, snapshot, start_range, end_range, validate_content, progress_callback, max_connections, lease_id, if_modified_since, if_unmodified_since, if_match, if_none_match, timeout)
   2378                                       if_none_match,
   2379                                       timeout)
-> 2380         blob.content = blob.content.decode(encoding)
   2381         return blob
   2382 

MemoryError:

如何從Blob容器中讀取Python大小約為1.5 GB的文件？ 另外，我想為我的代碼提供最佳的運行時。

Answer 1

假設您的計算機中有足夠的內存，並且根據下面的pandas.read_csv API參考，您可以通過帶有sas令牌的csv blob URL將csv blob內容直接讀取到pandas數據幀中。

這是我的示例代碼供您參考。

from azure.storage.blob.baseblobservice import BaseBlobService
from azure.storage.blob import BlobPermissions
from datetime import datetime, timedelta

import pandas as pd

account_name = '<your storage account name>'
account_key = '<your storage account key>'
container_name = '<your container name>'
blob_name = '<your csv blob name>'

url = f"https://{account_name}.blob.core.windows.net/{container_name}/{blob_name}"

service = BaseBlobService(account_name=account_name, account_key=account_key)
# Generate the sas token for your csv blob
token = service.generate_blob_shared_access_signature(container_name, blob_name, permission=BlobPermissions.READ, expiry=datetime.utcnow() + timedelta(hours=1),)

# Directly read the csv blob content into dataframe by the url with sas token
df = pd.read_csv(f"{url}?{token}")
print(df)

我認為這樣做可以避免在讀取文本內容時將內存復制幾次，並將其轉換為類似file-like對象buffer 。

希望能幫助到你。

內存錯誤：在python中從BLOB讀取大的.txt文件時

問題描述

1 個解決方案

解決方案1
2 已采納 2019-06-25 09:18:07

內存錯誤：在python中從BLOB讀取大的.txt文件時

問題描述

1 個解決方案

解決方案1 2 已采納 2019-06-25 09:18:07

解決方案1
2 已采納 2019-06-25 09:18:07