[英]How to remove unicode in rdd with spark-scala?
数据样本:
1991;113;High Heels;Comedy;Bos�, Miguel;Abril, Victoria;Almod�var, Pedro;68;No;NicholasCage.png
如何在Spark中使用Scala删除Unicode并将字符串映射为标准字符串格式。
注意:我确实提到了PySpark解决方案,但是我正在寻找基于Scala的解决方案。
您可以从org.apache.commons.lang3
导入StringUtils
类,并使用此方法
然后在RDD上执行地图:
rdd.map(word => StringUtils.stripAccents(word))
您可以根据所使用的内容(Maven,sbt等) 在此处获取依赖项
下面是带有RDD [String]的快速示例
val rawRDD = sc.parallelize(List("Tĥïŝ ĩš â fůňķŷ Šťŕĭńġ","Tĥïŝ ĩš ânóthêr fůňķŷ Šťŕĭńġ") )
val newRDD = rawRDD.map(word => StringUtils.stripAccents(word))
rawRDD
Tĥïŝ ĩš â fůňķŷ Šťŕĭńġ
Tĥïŝ ĩš ânóthêr fůňķŷ Šťŕĭńġ
newRDD
This is a funky String
This is another funky String
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.