簡體   English   中英

dask:如何從Microsoft Azure Blob將CSV文件讀入DataFrame

[英]dask : How to read CSV files into a DataFrame from Microsoft Azure Blob

S3F是S3的Pythonic文件接口, DASK是否具有Azure存儲Blob的任何Pythonic接口 用於Azure存儲Blob的Python SDK提供了對blob進行讀寫的方法,但該接口要求將文件從雲下載到本地計算機。 我正在尋找能夠讀取blob以支持DASK並行讀取為流或字符串而不持久保存到本地磁盤的解決方案

我在這里新推了代碼: https//github.com/dask/dask-adlfs

您可以從該位置進行pip-install,盡管最好通過conda安裝需求(dask,cffi,oauthlib)來提供服務。 在python會話中,執行import dask_adlfs就足以使用Dask注冊后端,這樣以后你可以使用具有dask函數的azure URL:

import dask.dataframe as dd
df = dd.read_csv('adl://mystore/path/to/*.csv', storage_options={
    tenant_id='mytenant', client_id='myclient', 
    client_secret='mysecret'})

由於此代碼完全是全新的且未經測試,因此需要粗糙的邊緣。 幸運的話,你可以幫助解決這些問題。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM