繁体   English   中英

Spark - 读取 CSV 文件时出现奇怪的字符

[英]Spark - Strange characters when reading CSV file

我希望有人可以帮助我。 我的问题如下:

要在 Spark 中读取 CSV 文件,我正在使用代码

val df=spark.read.option("header","true").option("inferSchema","true").csv("/home/user/Documents/filename.csv")

假设我的文件名为filename.csv ,路径为/home/user/Documents/

显示我使用的前 10 个结果

df.show(10)

但相反,我得到以下结果,其中包含字符 并且没有按需要显示 10 个结果

scala> df.show(10)
+--------+---------+---------+-----------------+                                
|     c1|      c2|      c3|              c4|
+--------+---------+---------+-----------------+
|��1.0|5450|3007|20160101|
+--------+---------+---------+-----------------+

CSV 文件看起来像这样

c1  c2      c3     c4

1   5450    3007    20160101

2   2156    1414    20160107

1   78229   3656    20160309

1   34963   4484    20160104

1   7897    3350    20160105

11  13247   3242    20160303

2   4957    3350    20160124

1   73083   4211    20160207

我试图读取的文件很大。 当我尝试较小的文件时,我没有得到奇怪的字符,我可以毫无问题地看到前 10 个结果。

任何帮助表示赞赏。

有时不是Spark设置的问题。 尝试将您的 CSV 文件重新保存(另存为)为“CSV UTF-8(逗号分隔)”,然后重新运行您的代码,奇怪的字符将消失。 我在读取一些包含德语单词的 CSV 文件时遇到了类似的问题,然后我在上面做了,一切都很好。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM