Spark：數據幀序列化

Question

我有2個關於Spark序列化的問題，我只能通過谷歌搜索找不到答案。

如何打印出當前使用的序列化程序的名稱; 我想知道spark.serializer是Java還是Kryo。

我有以下代碼，應該使用Kryo序列化; 用於數據幀的內存大小變為21meg，這是我剛剛緩存而沒有序列化的四分之一; 但是當我刪除Kryo配置時，大小保持相同的21meg。 這是否意味着Kryo從未被用在第一位？ 可能是因為數據框中的記錄只是行，Java和Kryo序列化的大小相同嗎？

 val conf = new SparkConf() conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer") conf.set("spark.kryo.registrationRequired", "false") val spark = SparkSession.builder.master("local[*]").config(conf) .appName("KryoWithRegistrationNOTRequired").getOrCreate val df = spark.read.csv("09-MajesticMillion.csv") df.persist(StorageLevel.MEMORY_ONLY_SER)

Answer 1

這是否意味着Kryo從未被用在第一位？

這意味着它。 Spark SQL（ Dataset ）使用它自己的柱狀存儲進行緩存。 沒有使用Java或Kryo序列化因此spark.serializer根本沒有影響。

Spark：數據幀序列化

問題描述

1 個解決方案

解決方案1
4 2017-12-26 19:41:33

Spark：數據幀序列化

問題描述

1 個解決方案

解決方案1 4 2017-12-26 19:41:33

解決方案1
4 2017-12-26 19:41:33