[英]Java serialization vs Hadoop serialization vs Spark serialization
我已经研究了Java
Serialization
和Deserialization
Serialization
Deserialization
过程,并试图了解Hadoop
和Spark
。
有人可以让我知道Hadoop
, Spark
和Java
序列化过程之间的区别。
Hadoop拥有自己的序列化接口(可写),该接口旨在使产生的垃圾尽可能少。 实现它的对象是可变的,并且在运行mapper或reducer时可以重用,从而进一步减少了垃圾数量。 还可以通过不同版本的代码编写适当设计的可写对象,从而解决了可序列化的内在问题。
Spark没有自己的序列化,默认情况下使用本机Java序列化。 性能不是很好,使用Kryo可能会引起火花,有时会带来10倍的性能提升。 但是,在使用Kryo时,应在运行作业之前在SparkConf中注册所有自定义类。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.