[英]PHP fgetcsv: Strange characters when reading in MAC OS exported CSV File
[英]Spark - Strange characters when reading CSV file
我希望有人可以幫助我。 我的問題如下:
要在 Spark 中讀取 CSV 文件,我正在使用代碼
val df=spark.read.option("header","true").option("inferSchema","true").csv("/home/user/Documents/filename.csv")
假設我的文件名為filename.csv
,路徑為/home/user/Documents/
顯示我使用的前 10 個結果
df.show(10)
但相反,我得到以下結果,其中包含字符 並且沒有按需要顯示 10 個結果
scala> df.show(10)
+--------+---------+---------+-----------------+
| c1| c2| c3| c4|
+--------+---------+---------+-----------------+
|��1.0|5450|3007|20160101|
+--------+---------+---------+-----------------+
CSV 文件看起來像這樣
c1 c2 c3 c4
1 5450 3007 20160101
2 2156 1414 20160107
1 78229 3656 20160309
1 34963 4484 20160104
1 7897 3350 20160105
11 13247 3242 20160303
2 4957 3350 20160124
1 73083 4211 20160207
我試圖讀取的文件很大。 當我嘗試較小的文件時,我沒有得到奇怪的字符,我可以毫無問題地看到前 10 個結果。
任何幫助表示贊賞。
有時不是Spark設置的問題。 嘗試將您的 CSV 文件重新保存(另存為)為“CSV UTF-8(逗號分隔)”,然后重新運行您的代碼,奇怪的字符將消失。 我在讀取一些包含德語單詞的 CSV 文件時遇到了類似的問題,然后我在上面做了,一切都很好。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.