繁体   English   中英

GroupedData 的长度“‘GroupedData’类型的对象没有 len()”

[英]Length of GroupedData "object of type 'GroupedData' has no len()"

我在计算分组数据的长度时遇到问题:

'GroupedData' 类型的 object 没有 len()

我在 PySpark 中有以下代码:

gb = df.groupBy('A_1')
l = len(gb)
print(l)

但我得到这个错误。 如何计算gb的长度?

此代码可以与 pandas 一起运行:

gb = df.groupby(['A_1'])
l = len(gb)
print(l)

但是在 PySpark 中,我遇到了问题。

问题是使用len 您不能将其与 Spark 一起使用。 我想,你想使用count

df = spark.range(10)
print(df.count())
# 10

groupBy是一个“部分”步骤。 之后没有聚合就不能进行 groupBy 。 如果您只想计算不同“A_1”的数量,请执行以下操作:

df.select("A_1").distinct().count()

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM