Spark pandas_udf 並不快

Question

我正面臨着繁重的數據轉換。 簡而言之，我有幾列數據，每列都包含與一些序數相對應的字符串。 例如， HIGH 、 MID和LOW 。 我的目標是將這些字符串映射到將保留順序的整數。 在這種情況下， LOW -> 0 ， MID -> 1和HIGH -> 2 。

這是一個生成此類數據的簡單函數：

def fresh_df(N=100000, seed=None):
    np.random.seed(seed)
    feat1 = np.random.choice(["HI", "LO", "MID"], size=N)
    feat2 = np.random.choice(["SMALL", "MEDIUM", "LARGE"], size=N)

    pdf = pd.DataFrame({
        "feat1": feat1,
        "feat2": feat2
    })
    return spark.createDataFrame(pdf)

我的第一種方法是：

feat1_dict = {"HI": 1, "MID": 2, "LO": 3}
feat2_dict = {"SMALL": 0, "MEDIUM": 1, "LARGE": 2}

mappings = {
    "feat1": F.create_map([F.lit(x) for x in chain(*feat1_dict.items())]),
    "feat2": F.create_map([F.lit(x) for x in chain(*feat2_dict.items())])
}

for col in df.columns:
    col_map = mappings[col]
    df = df.withColumn(col+"_mapped", col_map[df[col]])

這按預期工作，但實際上它變得很慢，我想優化該過程。 我讀了有關pandas_udf ，它給了我希望。 這是修改后的代碼：

feats_dict = {
    "feat1": feat1_dict,
    "feat2": feat2_dict
}

for col_name in df.columns:
    @F.pandas_udf('integer', F.PandasUDFType.SCALAR)
    def map_map(col):
        return col.map(feats_dict[col_name])
    df = df.withColumn(col_name + "_mapped", map_map(df[col_name]))

唉! 比較這兩個版本時，在執行時間方面沒有改進。 我在 Spark 的本地實例（使用 docker）和 5 個節點的 EMR 集群（使用默認配置）上比較了兩者。

我創建了一個筆記本，您可以在其中查看所有代碼。 一般來說，我使用了以下導入：

import numpy as np
import pandas as pd

from itertools import chain
from pyspark.sql import functions as F

我錯過了什么？ 為什么這個過程如此緩慢，為什么在使用pandas_udf時沒有改進？

Answer 1

為何這么慢？ 因為 Spark 在 JVM 中運行，而pyspark不運行（因為它是一個 python 進程）並且要使其成為可能，需要將所有數據序列化和反序列化移動到 JVM。

您可以使用when和otherwise函數映射值並避免序列化和反序列化過程，從而提高性能。

import numpy as np
import pandas as pd
import pyspark.sql.functions as f
from pyspark.shell import spark


def fresh_df(n=100000, seed=None):
    np.random.seed(seed)
    feat1 = np.random.choice(["HI", "LO", "MID"], size=n)
    feat2 = np.random.choice(["SMALL", "MEDIUM", "LARGE"], size=n)

    pdf = pd.DataFrame({
        "feat1": feat1,
        "feat2": feat2
    })
    return spark.createDataFrame(pdf)


df = fresh_df()
df = df.withColumn('feat1_mapped', f
                   .when(df.feat1 == f.lit('HI'), 1)
                   .otherwise(f.when(df.feat1 == f.lit('MID'), 2).otherwise(3)))

df = df.withColumn('feat2_mapped', f
                   .when(df.feat2 == f.lit('SMALL'), 0)
                   .otherwise(f.when(df.feat2 == f.lit('MEDIUM'), 1).otherwise(2)))
df.show(n=20)

輸出

+-----+------+------------+------------+
|feat1| feat2|feat1_mapped|feat2_mapped|
+-----+------+------------+------------+
|   LO| SMALL|           3|           0|
|   LO|MEDIUM|           3|           1|
|  MID|MEDIUM|           2|           1|
|  MID| SMALL|           2|           0|
|  MID| LARGE|           2|           2|
|  MID| SMALL|           2|           0|
|   LO| SMALL|           3|           0|
|  MID| LARGE|           2|           2|
|  MID| LARGE|           2|           2|
|  MID| SMALL|           2|           0|
|  MID|MEDIUM|           2|           1|
|   LO| LARGE|           3|           2|
|   HI|MEDIUM|           1|           1|
|   LO| SMALL|           3|           0|
|   HI|MEDIUM|           1|           1|
|  MID| SMALL|           2|           0|
|  MID|MEDIUM|           2|           1|
|   HI| SMALL|           1|           0|
|   HI| LARGE|           1|           2|
|  MID| LARGE|           2|           2|
+-----+------+------------+------------+

Spark pandas_udf 並不快

問題描述

1 個解決方案

解決方案1
2 2019-07-08 15:33:42

Spark pandas_udf 並不快

問題描述

1 個解決方案

解決方案1 2 2019-07-08 15:33:42

解決方案1
2 2019-07-08 15:33:42