如何从Blob存储容器中导入和处理所有文件以使数据砖蔚蓝

Question

我正在使用Azure数据砖和Blob存储。 我有一个存储帐户，每小时存储一次来自IOT设备的数据。 因此文件夹结构为{年/月/日/小时}，它将数据存储为csv文件。 我的要求是，每天需要从azure databricks访问文件（因此从0-23开始会有24个文件夹），并且需要执行一些计算。

Answer 1

为了在wasb容器下处理许多文件，您需要使用Hadoop输入格式glob模式。 模式如下，与正则表达式有些类似：

* (match 0 or more character)
? (match single character)
[ab] (character class)
[^ab] (negated character class)
[a-b] (character range)
{a,b} (alternation)
\c (escape character)

对于您的用例，以下应该起作用：

df = spark.read.format("csv").load("/container/*/*/*/*.csv")

如何从Blob存储容器中导入和处理所有文件以使数据砖蔚蓝

问题描述

1 个解决方案

解决方案1
0 2018-10-18 04:05:05

如何从Blob存储容器中导入和处理所有文件以使数据砖蔚蓝

问题描述

1 个解决方案

解决方案1 0 2018-10-18 04:05:05

解决方案1
0 2018-10-18 04:05:05