![](/img/trans.png)
[英]Why does IntelliJ IDEA say “Cannot resolve symbol spark” for spark.sparkContext.textFile?
[英]spark.sparkContext.textFile read a file using UTF-8 encoding
我正在嘗試使用spark.sparkContext.textFile
讀取文件。 該文件采用unicode編碼。 當我讀取文件時,一些字符如下:
2851肯尼·匈牙利
2851肯尼·匈牙利
如何通過指定編碼方式讀取文件到rdd。
使用SparkContext.binaryFiles()
應該會有所幫助。 您只需要構建指定相關字符集的內容即可。
以下示例適用於ISO_8859:
val df = spark.sparkContext.binaryFiles(filePath, 12)
.mapValues(content => new String(content.toArray(), StandardCharsets.ISO_8859_1))
.toDF
更多信息在這里 。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.