Spark - 讀取 CSV 文件時出現奇怪的字符

Question

我希望有人可以幫助我。 我的問題如下：

要在 Spark 中讀取 CSV 文件，我正在使用代碼

val df=spark.read.option("header","true").option("inferSchema","true").csv("/home/user/Documents/filename.csv")

假設我的文件名為filename.csv ，路徑為/home/user/Documents/

顯示我使用的前 10 個結果

df.show(10)

但相反，我得到以下結果，其中包含字符並且沒有按需要顯示 10 個結果

scala> df.show(10)
+--------+---------+---------+-----------------+                                
|     c1|      c2|      c3|              c4|
+--------+---------+---------+-----------------+
|��1.0|5450|3007|20160101|
+--------+---------+---------+-----------------+

CSV 文件看起來像這樣

c1  c2      c3     c4

1   5450    3007    20160101

2   2156    1414    20160107

1   78229   3656    20160309

1   34963   4484    20160104

1   7897    3350    20160105

11  13247   3242    20160303

2   4957    3350    20160124

1   73083   4211    20160207

我試圖讀取的文件很大。 當我嘗試較小的文件時，我沒有得到奇怪的字符，我可以毫無問題地看到前 10 個結果。

任何幫助表示贊賞。

Answer 1

有時不是Spark設置的問題。 嘗試將您的 CSV 文件重新保存（另存為）為“CSV UTF-8（逗號分隔）”，然后重新運行您的代碼，奇怪的字符將消失。 我在讀取一些包含德語單詞的 CSV 文件時遇到了類似的問題，然后我在上面做了，一切都很好。

Spark - 讀取 CSV 文件時出現奇怪的字符

問題描述

1 個解決方案

解決方案1
2 2019-12-05 15:04:29

Spark - 讀取 CSV 文件時出現奇怪的字符

問題描述

1 個解決方案

解決方案1 2 2019-12-05 15:04:29

解決方案1
2 2019-12-05 15:04:29