csv 和 PySpark 的 Unicode 问题

Question

我有一个带有 unicode 字符的 PySpark 数据框，如下所示：

from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()
df = spark.createDataFrame([{"a": 0, "b": 1, "c": "somestring\u0001bla"}])

导致：

我想通过读取或写入新的 csv 文件来消除这种情况。 我尝试了不同的选择：

option("encoding", "UTF-8")
option("nullValue", "\u0001")
option("encoding", "ISO-8859-1")

并使用各种编码选项阅读，但没有任何效果。 关于如何做到这一点的任何建议？

Answer 1

这是消除这些字符的代码，

df = spark.createDataFrame([{"a": 0, "b": 1, "c": "somestring\bla"}])
df.show()

在此处粘贴为文本时无法显示该特殊字符。 作为图像附加。“https://i.stack.imgur.com/21Nh0.png”

|  a|  b|             c|
+---+---+--------------+
|  0|  1|somestringbla|
+---+---+--------------+
df.createOrReplaceTempView("data")
spark.sql("select regexp_replace(c,'\u0001','' ) from data").show()
+----------------------+
|regexp_replace(c, , )|
+----------------------+
|         somestringbla|
+----------------------+

csv 和 PySpark 的 Unicode 问题

问题描述

1 个解决方案

解决方案1
0 2021-03-19 15:18:13

csv 和 PySpark 的 Unicode 问题

问题描述

1 个解决方案

解决方案1 0 2021-03-19 15:18:13

解决方案1
0 2021-03-19 15:18:13