替換 Spark 數據框中列名的特殊字符

Question

我的輸入spark-dataframe名為df ，

+---------------+----------------+-----------------------+
|Main_CustomerID|126+ Concentrate|2.5 Ethylhexyl_Acrylate|
+---------------+----------------+-----------------------+
|         725153|             3.0|                    2.0|
|         873008|             4.0|                    1.0|
|         625109|             1.0|                    0.0|
+---------------+----------------+-----------------------+

我需要從df的列名中刪除特殊字符，如下所示，

刪除+
將空格替換為underscore
將dot替換為underscore

所以我的df應該像

+---------------+---------------+-----------------------+
|Main_CustomerID|126_Concentrate|2_5_Ethylhexyl_Acrylate|
+---------------+---------------+-----------------------+
|         725153|            3.0|                    2.0|
|         873008|            4.0|                    1.0|
|         625109|            1.0|                    0.0|
+---------------+---------------+-----------------------+

使用 Scala，我已經實現了這一點，

var tableWithColumnsRenamed = df

for (field <- tableWithColumnsRenamed.columns) {
      tableWithColumnsRenamed = tableWithColumnsRenamed
        .withColumnRenamed(field, field.replaceAll("\\.", "_"))
    }
for (field <- tableWithColumnsRenamed.columns) {
      tableWithColumnsRenamed = tableWithColumnsRenamed
        .withColumnRenamed(field, field.replaceAll("\\+", ""))
    }
for (field <- tableWithColumnsRenamed.columns) {
      tableWithColumnsRenamed = tableWithColumnsRenamed
        .withColumnRenamed(field, field.replaceAll(" ", "_"))
    }

df = tableWithColumnsRenamed

我用的時候，

for (field <- tableWithColumnsRenamed.columns) {
      tableWithColumnsRenamed = tableWithColumnsRenamed
        .withColumnRenamed(field, field.replaceAll("\\.", "_"))
    .withColumnRenamed(field, field.replaceAll("\\+", ""))
    .withColumnRenamed(field, field.replaceAll(" ", "_"))
    }

我得到的第一個列名是126 Concentrate而不是126_Concentrate

但是我不喜歡 3 for 循環來替換這個。 我能得到解決方案嗎？

Answer 1

df
  .columns
  .foldLeft(df){(newdf, colname) =>
    newdf.withColumnRenamed(colname, colname.replace(" ", "_").replace(".", "_"))
  }
  .show

Answer 2

您可以使用withColumnRenamed regex replaceAllIn和foldLeft如下

val columns = df.columns

val regex = """[+._, ]+"""
val replacingColumns = columns.map(regex.r.replaceAllIn(_, "_"))

val resultDF = replacingColumns.zip(columns).foldLeft(df){(tempdf, name) => tempdf.withColumnRenamed(name._2, name._1)}

resultDF.show(false)

這應該給你

+---------------+---------------+-----------------------+
|Main_CustomerID|126_Concentrate|2_5_Ethylhexyl_Acrylate|
+---------------+---------------+-----------------------+
|725153         |3.0            |2.0                    |
|873008         |4.0            |1.0                    |
|625109         |1.0            |0.0                    |
+---------------+---------------+-----------------------+

我希望答案有幫助

Answer 3

在 Java 中，您可以使用df.columns()迭代列名，並用string replaceAll(regexPattern, IntendedCharreplacement)替換每個標題字符串

然后使用withColumnRenamed(headerName, correctedHeaderName)重命名df標頭。

例如——

for (String headerName : dataset.columns()) {
    String correctedHeaderName = headerName.replaceAll(" ","_").replaceAll("+","_");
    dataset = dataset.withColumnRenamed(headerName, correctedHeaderName);
}
dataset.show();

Answer 4

Piggybacking Ramesh 的回答，這里是一個使用柯里化語法和 .transform() 方法的可重用函數，並使列小寫：

// Format all column names with regex with lower_case names
def formatAllColumns(regex_string:String)(df: DataFrame): DataFrame = {
  val replacingColumns = df.columns.map(regex_string.r.replaceAllIn(_, "_"))
  val resultDF:DataFrame = replacingColumns.zip(df.columns).foldLeft(df){
    (tempdf, name) => tempdf.withColumnRenamed(name._2, name._1.toLowerCase())
  }
  resultDF
}
val resultDF = df.transform(formatAllColumns(regex_string="""[+._(), ]+"""))

Answer 5

我們可以在使用 replaceAll 替換特殊字符后，通過將 column_name 映射到新名稱來刪除所有字符，並使用 spark scala 嘗試和測試這一行代碼。

df.select(
          df.columns
            .map(colName => col(s"`${colName}`").as(colName.replaceAll("\\.", "_").replaceAll(" ", "_"))): _*
        ).show(false)

替換 Spark 數據框中列名的特殊字符

問題描述

5 個解決方案

解決方案1
11 已采納 2018-06-29 09:32:50

解決方案2
8 2018-06-29 09:42:53

解決方案3
0 2019-10-04 07:21:14

解決方案4
0 2019-12-31 21:19:52

解決方案5
0 2020-12-28 16:38:24

替換 Spark 數據框中列名的特殊字符

問題描述

5 個解決方案

解決方案1 11 已采納 2018-06-29 09:32:50

解決方案2 8 2018-06-29 09:42:53

解決方案3 0 2019-10-04 07:21:14

解決方案4 0 2019-12-31 21:19:52

解決方案5 0 2020-12-28 16:38:24

解決方案1
11 已采納 2018-06-29 09:32:50

解決方案2
8 2018-06-29 09:42:53

解決方案3
0 2019-10-04 07:21:14

解決方案4
0 2019-12-31 21:19:52

解決方案5
0 2020-12-28 16:38:24