Pyspark - 讀取 csv 文件並保留原始特殊字符

Question

我正在讀取一個只有如下數據的 csv 文件

Country        State      City
MÉXICO         Neu Leon   Monterrey    
MÉXICO         Chiapas    ATLÁNTICO

我嘗試在 pyspark 數據幀中使用 encoding = 'utf8' 和 'ISO-8859-1' 讀取文件，但值正在改變，如下所示 -

在選項（“編碼”，“utf-8”）

Country          State      City
Mï¿½XICO         Neu Leon   Monterrey    
Mï¿½XICO         Chiapas    ATLï¿½NTICO

在選項（“編碼”，“ISO-8859-1”）

Country        State      City
M?XICO         Neu Leon   Monterrey    
M?XICO         Chiapas    ATL?NTICO

這是火花閱讀聲明

spark.read.format("csv").option("quote", "\"").option("escape", "\"").option('multiLine', True).option("encoding", "ISO-8859-1").option("header", "true").load("country.csv")

option("encoding", "mbcs") 和 option("encoding", "ansi") 給出錯誤。

我該怎么做才能保留輸入文件中的原始文本？ 提前致謝

Answer 1

重新讀取而不編碼，然后創建一個新列：

df.withColumn("some_col_name", decode(col("column_name"), "ISO-8859-1"))

# One of these will give you what you need. ('US-ASCII', 'ISO-8859-1', 'UTF-8', 'UTF-16BE', 'UTF-16LE', 'UTF-16')

Pyspark - 讀取 csv 文件並保留原始特殊字符

問題描述

1 個解決方案

解決方案1
0 2020-10-13 14:55:11

Pyspark - 讀取 csv 文件並保留原始特殊字符

問題描述

1 個解決方案

解決方案1 0 2020-10-13 14:55:11

解決方案1
0 2020-10-13 14:55:11