Azure Databricks：Python 并行循环

Question

我正在使用 Azure Databricks 来分析一些数据。 我在 blob 存储中有以下文件夹结构：

folder_1\n1 csv files
folder_2\n2 csv files
..
folder_k\nk csv files

我想读取这些文件，运行一些算法（相对简单）并在另一个 blob 存储位置的类似文件夹结构中为每个 csv 文件写出一些日志文件和图像文件。 现在我有一个简单的循环结构来做到这一点：

for folder in folders:
  #set up some stuff
  for file in files:
    #do the work and write out results

该数据库包含 150k 个文件。 有没有办法并行化这个？

Answer 1

我发现在databricks中并行化这种令人尴尬的并行任务的最佳方法是使用pandas UDF（ https://databricks.com/blog/2020/05/20/new-pandas-udfs-and-python-type- the-upcoming-release-of-apache-spark-3-0.html?_ga=2.143957493.1972283838.1643225636-354359200.1607978015 ）

我创建了一个 spark dataframe，其中包含要循环的文件和文件夹列表，将其传递给具有指定分区数量的 pandas UDF（基本上是要并行化的核心）。 这可以利用数据块集群上的可用内核。 从 pandas UDF 调用的内容有一些限制（例如，不能直接使用“dbutils”调用），但它对我的应用程序来说就像一个魅力。

Azure Databricks：Python 并行循环

问题描述

1 个解决方案

解决方案1
0 已采纳 2022-01-28 18:41:59

Azure Databricks：Python 并行循环

问题描述

1 个解决方案

解决方案1 0 已采纳 2022-01-28 18:41:59

解决方案1
0 已采纳 2022-01-28 18:41:59