簡體   English   中英

Pyspark - 讀取 csv 文件並保留原始特殊字符

[英]Pyspark - Reading a csv file and retaining the original special characters

我正在讀取一個只有如下數據的 csv 文件

Country        State      City
MÉXICO         Neu Leon   Monterrey    
MÉXICO         Chiapas    ATLÁNTICO

我嘗試在 pyspark 數據幀中使用 encoding = 'utf8' 和 'ISO-8859-1' 讀取文件,但值正在改變,如下所示 -

在選項(“編碼”,“utf-8”)

Country          State      City
M�XICO         Neu Leon   Monterrey    
M�XICO         Chiapas    ATL�NTICO

在選項(“編碼”,“ISO-8859-1”)

Country        State      City
M?XICO         Neu Leon   Monterrey    
M?XICO         Chiapas    ATL?NTICO

這是火花閱讀聲明

spark.read.format("csv").option("quote", "\"").option("escape", "\"").option('multiLine', True).option("encoding", "ISO-8859-1").option("header", "true").load("country.csv")

option("encoding", "mbcs") 和 option("encoding", "ansi") 給出錯誤。

我該怎么做才能保留輸入文件中的原始文本? 提前致謝

重新讀取而不編碼,然后創建一個新列:

df.withColumn("some_col_name", decode(col("column_name"), "ISO-8859-1"))

# One of these will give you what you need. ('US-ASCII', 'ISO-8859-1', 'UTF-8', 'UTF-16BE', 'UTF-16LE', 'UTF-16')

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM