簡體   English   中英

spark.sparkContext.textFile使用UTF-8編碼讀取文件

[英]spark.sparkContext.textFile read a file using UTF-8 encoding

我正在嘗試使用spark.sparkContext.textFile讀取文件。 該文件采用unicode編碼。 當我讀取文件時,一些字符如下:

2851肯尼·匈牙利

2851肯尼·匈牙利

如何通過指定編碼方式讀取文件到rdd。

使用SparkContext.binaryFiles()應該會有所幫助。 您只需要構建指定相關字符集的內容即可。

以下示例適用於ISO_8859:

val df = spark.sparkContext.binaryFiles(filePath, 12)
  .mapValues(content => new String(content.toArray(), StandardCharsets.ISO_8859_1))
  .toDF

更多信息在這里

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM