如何序列化PySpark GroupedData对象？

Question

我正在具有数百万条记录的数据集上运行groupBy() ，并希望保存结果输出（PySpark GroupedData对象），以便稍后可以反序列化并从该点继续（在此之上运行聚合）需要）。

df.groupBy("geo_city")
<pyspark.sql.group.GroupedData at 0x10503c5d0>

我想避免将GroupedData对象转换为DataFrames或RDD，以便将其保存为文本文件或Parquet / Avro格式（因为转换操作很昂贵）。 还有其他有效的方法可以将GroupedData对象存储为某种二进制格式，以便更快地进行读取/写入吗？ 可能相当于Spark中的泡菜？

Answer 1

没有，因为GroupedData并不是真正的东西。 它根本不对数据执行任何操作。 它仅描述在对后续agg结果执行操作时应如何进行实际聚合。

您可能会序列化底层JVM对象并在以后还原它，但这是浪费时间。 由于groupBy仅描述必须执行的操作，因此从头开始重新创建GroupedData对象的成本应该可以忽略不计。

如何序列化PySpark GroupedData对象？

问题描述

1 个解决方案

解决方案1
2 2016-07-26 22:47:01

如何序列化PySpark GroupedData对象？

问题描述

1 个解决方案

解决方案1 2 2016-07-26 22:47:01

解决方案1
2 2016-07-26 22:47:01