![](/img/trans.png)
[英]python/pyspark - Reading special characters from csv and writing it back to the file
[英]Pyspark - Reading a csv file and retaining the original special characters
我正在讀取一個只有如下數據的 csv 文件
Country State City
MÉXICO Neu Leon Monterrey
MÉXICO Chiapas ATLÁNTICO
我嘗試在 pyspark 數據幀中使用 encoding = 'utf8' 和 'ISO-8859-1' 讀取文件,但值正在改變,如下所示 -
在選項(“編碼”,“utf-8”)
Country State City
M�XICO Neu Leon Monterrey
M�XICO Chiapas ATL�NTICO
在選項(“編碼”,“ISO-8859-1”)
Country State City
M?XICO Neu Leon Monterrey
M?XICO Chiapas ATL?NTICO
這是火花閱讀聲明
spark.read.format("csv").option("quote", "\"").option("escape", "\"").option('multiLine', True).option("encoding", "ISO-8859-1").option("header", "true").load("country.csv")
option("encoding", "mbcs") 和 option("encoding", "ansi") 給出錯誤。
我該怎么做才能保留輸入文件中的原始文本? 提前致謝
重新讀取而不編碼,然后創建一個新列:
df.withColumn("some_col_name", decode(col("column_name"), "ISO-8859-1"))
# One of these will give you what you need. ('US-ASCII', 'ISO-8859-1', 'UTF-8', 'UTF-16BE', 'UTF-16LE', 'UTF-16')
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.