控件配置為寫為saveAsTextFile的Apache Spark UTF編碼設置

Question

因此，如何在使用saveAsTextFile(path)時告訴spark使用哪個UTF？ 當然，如果知道所有字符串都是UTF-8，那么它將在磁盤上節省2倍的空間！ （假設默認的UTF是16，例如java）

Answer 1

saveAsTextFile實際上使用hadoop中的Text ，該Text編碼為UTF-8。

def saveAsTextFile(path: String, codec: Class[_ <: CompressionCodec]) {
    this.map(x => (NullWritable.get(), new Text(x.toString)))
      .saveAsHadoopFile[TextOutputFormat[NullWritable, Text]](path, codec)
  }

從Text.java：

public class Text extends BinaryComparable
    implements WritableComparable<BinaryComparable> {

  static final int SHORT_STRING_MAX = 1024 * 1024;

  private static ThreadLocal<CharsetEncoder> ENCODER_FACTORY =
    new ThreadLocal<CharsetEncoder>() {
      protected CharsetEncoder initialValue() {
        return Charset.forName("UTF-8").newEncoder().
               onMalformedInput(CodingErrorAction.REPORT).
               onUnmappableCharacter(CodingErrorAction.REPORT);
    }
  };

  private static ThreadLocal<CharsetDecoder> DECODER_FACTORY =
    new ThreadLocal<CharsetDecoder>() {
    protected CharsetDecoder initialValue() {
      return Charset.forName("UTF-8").newDecoder().
             onMalformedInput(CodingErrorAction.REPORT).
             onUnmappableCharacter(CodingErrorAction.REPORT);
    }
  };

如果您想另存為UTF-16，我想您可以將saveAsHadoopFile與org.apache.hadoop.io.BytesWritable一起使用，並獲取Java String （如您所說的將是UTF-16）的字節。 像這樣：
saveAsHadoopFile[SequenceFileOutputFormat[NullWritable, BytesWritable]](path)
您可以從"...".getBytes("UTF-16")獲取字節"...".getBytes("UTF-16")

控件配置為寫為saveAsTextFile的Apache Spark UTF編碼設置

問題描述

1 個解決方案

解決方案1
3 已采納 2014-07-09 16:56:53

控件配置為寫為saveAsTextFile的Apache Spark UTF編碼設置

問題描述

1 個解決方案

解決方案1 3 已采納 2014-07-09 16:56:53

解決方案1
3 已采納 2014-07-09 16:56:53