如何在 Apache Spark 中的 Dataframe 上運行 Python 中的正則表達式

Question

我正在嘗試在 Apache Spark 中的 dataframe 上運行 Python 中的正則表達式。

df是

正則表達式如下：

import re
m = re.search("[Pp]ython", df)
print(m)

我收到以下錯誤消息：

TypeError: expected string or bytes-like object

以下將起作用

導入 re m = re.search("[Pp]ython", 'Python python') print(m)

但我希望正則表達式適用於 dataframe

Answer 1

您可以使用regexp_extract ：

from pyspark.sql import functions as F

data = [["Python"],["python"], ["Scala"], ["PYTHON"]]
schema= ["language"]

df = spark.createDataFrame(data, schema)

df = df.withColumn("extracted", F.regexp_extract("language", "[Pp]ython", 0))

結果：

+--------+---------+
|language|extracted|
+--------+---------+
|  Python|   Python|
|  python|   python|
|   Scala|         |
|  PYTHON|         |
+--------+---------+

re.search的定義是

re.search（模式，字符串，標志=0）

第二個參數是一個字符串，這個 function 不能用於 Spark 數據幀。 但是（至少大多數）適用於re.search的模式也適用於regexp_extract 。 因此，首先使用re.search測試模式可能是一種方法。

如何在 Apache Spark 中的 Dataframe 上運行 Python 中的正則表達式

問題描述

1 個解決方案

解決方案1
1 已采納 2021-04-29 15:33:22

如何在 Apache Spark 中的 Dataframe 上運行 Python 中的正則表達式

問題描述

1 個解決方案

解決方案1 1 已采納 2021-04-29 15:33:22

解決方案1
1 已采納 2021-04-29 15:33:22