繁体   English   中英

如何从Blob存储容器中导入和处理所有文件以使数据砖蔚蓝

[英]How to import and process all files from a blob storage container to azure databricks

我正在使用Azure数据砖和Blob存储。 我有一个存储帐户,每小时存储一次来自IOT设备的数据。 因此文件夹结构为{年/月/日/小时},它将数据存储为csv文件。 我的要求是,每天需要从azure databricks访问文件(因此从0-23开始会有24个文件夹),并且需要执行一些计算。

为了在wasb容器下处理许多文件,您需要使用Hadoop输入格式glob模式。 模式如下,与正则表达式有些类似:

* (match 0 or more character)
? (match single character)
[ab] (character class)
[^ab] (negated character class)
[a-b] (character range)
{a,b} (alternation)
\c (escape character)

对于您的用例,以下应该起作用:

df = spark.read.format("csv").load("/container/*/*/*/*.csv")

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM