按類型從 pyspark dataframe 中刪除行

Question

我在 pyspark 中有一個包含產品項目的大文件，其中一些是准確的數字，其他包含字符串。 我想從 dataframe 中刪除所有帶有數字的行項目（計算效率高）。

|Product-1| Pj3f|
|Product-2| 12  |
|Product-3| Pj2F|
|Product-4| 20  |

如何按 pyspark dataframe 列中項目的類型過濾行？ pyspark 過濾器 function 似乎沒有它的功能。

k

Answer 1

將該列cast為int ，然后僅過濾null值列。

或者使用.rlike function

Example:

df.show()
#+---------+-----+
#|  product|descr|
#+---------+-----+
#|Product-1| pj3f|
#|product-2|   12|
#+---------+-----+

df.filter(col("descr").cast("int").isNull()).show()
df.filter(~col("descr").rlike("^([\s\d]+)$")).show()
#+---------+-----+
#|  product|descr|
#+---------+-----+
#|Product-1| pj3f|
#+---------+-----+

Answer 2

spark 中的列都是同一類型。 如果您將兩列與不同類型的union混合使用，spark 將嘗試將兩者轉換為有效類型，通常是String ，並放入值的字符串表示形式。

例子：

一個String列和一個Float ，將生成一個String列，其中浮點數以字符串形式表示，點表示小數點。 String + Float => String
一個Integer column union a Float會將所有整數轉換為 Floats。 Integer + Float => Float

對於你的情況將取決於，如果它是一個主題字符串或數字，我會 go 用於正則表達式過濾。

val stringsDF = df.filter(regex_extract($"column", "[0-9]+([.|,][0-9]+)?") === ""))

這將保留所有不遵循浮點數或 integer 值的值。

按類型從 pyspark dataframe 中刪除行

問題描述

2 個解決方案

解決方案1
2 2020-05-17 17:35:25

解決方案2
0 2020-05-17 17:34:38

按類型從 pyspark dataframe 中刪除行

問題描述

2 個解決方案

解決方案1 2 2020-05-17 17:35:25

解決方案2 0 2020-05-17 17:34:38

解決方案1
2 2020-05-17 17:35:25

解決方案2
0 2020-05-17 17:34:38