刪除Spark中RDD行中的連續空格

Question

經過大量程序清理后，我的數據集如下所示（在此處顯示部分數據集）。

ABCD        A M@L                             79
BGDA        F D@L                             89

我想將此轉換為以下內容以進一步進行Spark Dataframe操作

ABCD,A,M@L,79
BGDA,F,D@L,89


val reg = """/\s{2,}/"""
val cleanedRDD2 = cleanedRDD1.filter(x=> !reg.pattern.matcher(x).matches())

但這沒有任何回報。 如何使用分隔符查找和替換空字符串？ 謝謝！ RT

Answer 1

您似乎只想替換字符串數據中的所有非垂直空格。 我建議使用replaceAll （替換所有與模式匹配的文本）和[\\t\\p{Zs}]+正則表達式。

這是一個示例代碼：

val s = "ABCD        A M@L                             79\nBGDA        F D@L                             89"
val reg = """[\t\p{Zs}]+"""
val cleanedRDD2 = s.replaceAll(reg, ",")
print(cleanedRDD2)
// =>  ABCD,A,M@L,79
//     BGDA,F,D@L,89

這是正則表達式演示。 [\\t\\p{Zs}]+匹配一個或多個標簽（ \\t ）或空格分隔符類別中的任何Unicode空格。

要修改RDD的內容，只需使用.map ：

newRDD = yourRDD.map(elt => elt.replaceAll("""[\t\p{Zs}]+""", ","))

Answer 2

如果要直接在RDD上使用

rdd_nopunc = rdd.flatMap(lambda x: x.split()).filter(lambda x: x.replace("[,.!?:;]", ""))

刪除Spark中RDD行中的連續空格

問題描述

2 個解決方案

解決方案1
1 2016-06-16 08:28:51

解決方案2
0 2018-09-05 19:03:05

刪除Spark中RDD行中的連續空格

問題描述

2 個解決方案

解決方案1 1 2016-06-16 08:28:51

解決方案2 0 2018-09-05 19:03:05

解決方案1
1 2016-06-16 08:28:51

解決方案2
0 2018-09-05 19:03:05