Spark 根據行值選擇列

Question

我有一個全字符串 spark 數據框，我需要返回所有行都滿足特定條件的列。

scala> val df = spark.read.format("csv").option("delimiter",",").option("header", "true").option("inferSchema", "true").load("file:///home/animals.csv")

df.show()
+--------+---------+--------+
|Column 1| Column 2|Column 3|
+--------+---------+--------+
|(ani)mal|   donkey|    wolf|
|  mammal|(mam)-mal|  animal|
| chi-mps|   chimps|    goat|
+--------+---------+--------+

這里的標准是返回列，其中所有行值的length==6都為length==6 ，而與特殊字符無關。 響應應低於數據框，因為第 1 列和第 2 列中的所有行都具有length==6

+--------+---------+
|Column 1| Column 2|
+--------+---------+
|(ani)mal|   donkey|
|  mammal|(mam)-mal|
| chi-mps|   chimps|
+--------+---------+

Answer 1

如果您知道有什么特殊字符，您可以使用regexp_replace刪除特殊字符，然后獲取長度，過濾到您想要的字段。

val cols = df.columns
val df2 = cols.foldLeft(df) {
    (df, c) => df.withColumn(c + "_len", length(regexp_replace(col(c), "[()-]", "")))
}

df2.show()

+--------+---------+-------+-----------+-----------+-----------+
| Column1|  Column2|Column3|Column1_len|Column2_len|Column3_len|
+--------+---------+-------+-----------+-----------+-----------+
|(ani)mal|   donkey|   wolf|          6|          6|          4|
|  mammal|(mam)-mal| animal|          6|          6|          6|
| chi-mps|   chimps|   goat|          6|          6|          4|
+--------+---------+-------+-----------+-----------+-----------+

Spark 根據行值選擇列

問題描述

1 個解決方案

解決方案1
2 2020-08-28 06:10:24

Spark 根據行值選擇列

問題描述

1 個解決方案

解決方案1 2 2020-08-28 06:10:24

解決方案1
2 2020-08-28 06:10:24