[英]Read csv from Azure blob Storage and store in a DataFrame
[英]dask : How to read CSV files into a DataFrame from Microsoft Azure Blob
S3F是S3的Pythonic文件接口, DASK是否具有Azure存儲Blob的任何Pythonic接口 。 用於Azure存儲Blob的Python SDK提供了對blob進行讀寫的方法,但該接口要求將文件從雲下載到本地計算機。 我正在尋找能夠讀取blob以支持DASK並行讀取為流或字符串而不持久保存到本地磁盤的解決方案 。
我在這里新推了代碼: https : //github.com/dask/dask-adlfs
您可以從該位置進行pip-install,盡管最好通過conda安裝需求(dask,cffi,oauthlib)來提供服務。 在python會話中,執行import dask_adlfs
就足以使用Dask注冊后端,這樣以后你可以使用具有dask函數的azure URL:
import dask.dataframe as dd
df = dd.read_csv('adl://mystore/path/to/*.csv', storage_options={
tenant_id='mytenant', client_id='myclient',
client_secret='mysecret'})
由於此代碼完全是全新的且未經測試,因此需要粗糙的邊緣。 幸運的話,你可以幫助解決這些問題。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.