繁体   English   中英

使用Azure Data Factory V2中的Spark活动列出Blob存储容器中的文件

[英]List files in a blob storage container using spark activity in Azure Data Factory V2

我想知道如何使用活动(最好是Azure Data Factory V2中的pyspark)连接并列出Blob存储容器中可用的文件

有几种方法可以帮助您:

在Azure中使用HDInsight Hadoop或Spark群集时,会自动对其进行预配置,以通过实现标准Hadoop FilesSystem接口的hadoop-azure模块访问Azure存储Blob。 您可以在https://azure.microsoft.com/zh-cn/documentation/articles/hdinsight-hadoop-use-blob-storage/了解有关HDInsight如何使用Blob存储的更多信息。

可以在此博客文章中找到详细的指南: https : //blogs.msdn.microsoft.com/arsen/2016/07/13/accessing-azure-storage-blobs-from-spark-1-6-that-is -运行-本地/

可以在此幻灯片中找到另一个显示Storage API使用情况与Spark集成的资源https : //www.slideshare.net/BrajaDas/azure-blob-storage-api-for-scala-and-spark

此python脚本允许通过使用Azure Datafactory V2运行的pyspark脚本访问blob。

https://github.com/Azure-Samples/storage-blobs-python-quickstart/blob/master/example.py

但是我不得不使用

from azure.storage.blob import BlobService

而不是建议

from azure.storage.blob import BlockBlobService

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM