如何使用Spark-scala在rdd中删除unicode？

Question

数据样本：

1991;113;High Heels;Comedy;Bos�, Miguel;Abril, Victoria;Almod�var, Pedro;68;No;NicholasCage.png

如何在Spark中使用Scala删除Unicode并将字符串映射为标准字符串格式。

注意：我确实提到了PySpark解决方案，但是我正在寻找基于Scala的解决方案。

Answer 1

您可以从org.apache.commons.lang3导入StringUtils类，并使用此方法

然后在RDD上执行地图：

rdd.map(word => StringUtils.stripAccents(word))

您可以根据所使用的内容（Maven，sbt等）在此处获取依赖项

下面是带有RDD [String]的快速示例

val rawRDD = sc.parallelize(List("Tĥïŝ ĩš â fůňķŷ Šťŕĭńġ","Tĥïŝ ĩš ânóthêr fůňķŷ Šťŕĭńġ") )
val newRDD = rawRDD.map(word => StringUtils.stripAccents(word))

rawRDD

Tĥïŝ ĩš â fůňķŷ Šťŕĭńġ
Tĥïŝ ĩš ânóthêr fůňķŷ Šťŕĭńġ

newRDD

This is a funky String
This is another funky String

如何使用Spark-scala在rdd中删除unicode？

问题描述

1 个解决方案

解决方案1
2 已采纳 2018-03-28 10:09:30

如何使用Spark-scala在rdd中删除unicode？

问题描述

1 个解决方案

解决方案1 2 已采纳 2018-03-28 10:09:30

解决方案1
2 已采纳 2018-03-28 10:09:30