繁体   English   中英

使用适用于 Python 的 Azure 存储 SDK 将多个文件从文件夹上传到 Azure Blob 存储

[英]Upload multiple files from folder to Azure Blob storage using Azure Storage SDK for Python

我的 Windows 机器上的本地文件夹中有一些图像。 我想将所有图像上传到同一个容器中的同一个 blob。

我知道如何使用Azure 存储 SDK BlockBlobService.create_blob_from_path()上传单个文件,但我看不到一次上传文件夹中所有图像的可能性。

但是, Azure 存储资源管理器为此提供了一个功能,因此它必须以某种方式成为可能。

是否有提供此服务的函数,或者我是否必须遍历文件夹中的所有文件并为同一个 blob 多次运行create_blob_from_path()

没有直接的方法可以做到这一点。 您可以通过azure storage python SDK blockblobservice.pybaseblobservice.py了解详细信息。

正如您所提到的,您应该遍历它。 示例代码如下:

from azure.storage.blob import BlockBlobService, PublicAccess
import os

def run_sample():
    block_blob_service = BlockBlobService(account_name='your_account', account_key='your_key')
    container_name ='t1s'

    local_path = "D:\\Test\\test"

    for files in os.listdir(local_path):

# Main method.
if __name__ == '__main__':

本地文件: 在此处输入图片说明

代码执行后,上传到azure: 在此处输入图片说明

您可以通过探索多线程来获得更好的上传性能。 下面是一些代码来做到这一点:

from azure.storage.blob import BlobClient
from threading import Thread
import os

# Uploads a single blob. May be invoked in thread.
def upload_blob(container, file, index=0, result=None):
    if result is None:
        result = [None]

        # extract blob name from file path
        blob_name = ''.join(os.path.splitext(os.path.basename(file)))

        blob = BlobClient.from_connection_string(
            conn_str='CONNECTION STRING',

        with open(file, "rb") as data:
            blob.upload_blob(data, overwrite=True)

        print(f'Upload succeeded: {blob_name}')
        result[index] = True # example of returning result
    except Exception as e:
        print(e) # do something useful here
        result[index] = False # example of returning result

# container: string of container name. This example assumes the container exists.
# files: list of file paths.    
def upload_wrapper(container, files):
    # here, you can define a better threading/batching strategy than what is written
    # this code just creates a new thread for each file to be uploaded
    parallel_runs = len(files)
    threads = [None] * parallel_runs
    results = [None] * parallel_runs
    for i in range(parallel_runs):
        t = Thread(target=upload_blob, args=(container, files[i], i, results))
        threads[i] = t

    for i in range(parallel_runs):  # wait for all threads to finish

    # do something with results here

可能有更好的分块策略 - 这只是一个示例,用于说明在某些情况下,您可以通过使用线程来实现更高的 blob 上传性能。

以下是顺序循环方法与上述线程方法之间的一些基准测试(482 个图像文件,总共 26 MB):

  • 顺序上传:89秒
  • 线程上传:28 秒

我还应该补充一点,您可以考虑通过 Python 调用azcopy ,因为此工具可能更适合您的特定需求。


声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

粤ICP备18138465号  © 2020-2024 STACKOOM.COM