繁体   English   中英

如何使用Spark-scala在rdd中删除unicode?

[英]How to remove unicode in rdd with spark-scala?

数据样本:

1991;113;High Heels;Comedy;Bos�, Miguel;Abril, Victoria;Almod�var, Pedro;68;No;NicholasCage.png

如何在Spark中使用Scala删除Unicode并将字符串映射为标准字符串格式。

注意:我确实提到了PySpark解决方案,但是我正在寻找基于Scala的解决方案。

您可以从org.apache.commons.lang3导入StringUtils类,并使用方法

然后在RDD上执行地图:

rdd.map(word => StringUtils.stripAccents(word))

您可以根据所使用的内容(Maven,sbt等) 在此处获取依赖项

下面是带有RDD [String]的快速示例

val rawRDD = sc.parallelize(List("Tĥïŝ ĩš â fůňķŷ Šťŕĭńġ","Tĥïŝ ĩš ânóthêr fůňķŷ Šťŕĭńġ") )
val newRDD = rawRDD.map(word => StringUtils.stripAccents(word))

rawRDD

Tĥïŝ ĩš â fůňķŷ Šťŕĭńġ
Tĥïŝ ĩš ânóthêr fůňķŷ Šťŕĭńġ

newRDD

This is a funky String
This is another funky String

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM