[英]Python Spark: 'GroupedData' object has no attribute 'orderBy'
[英]Length of GroupedData "object of type 'GroupedData' has no len()"
我在计算分组数据的长度时遇到问题:
'GroupedData' 类型的 object 没有 len()
我在 PySpark 中有以下代码:
gb = df.groupBy('A_1')
l = len(gb)
print(l)
但我得到这个错误。 如何计算gb
的长度?
此代码可以与 pandas 一起运行:
gb = df.groupby(['A_1'])
l = len(gb)
print(l)
但是在 PySpark 中,我遇到了问题。
问题是使用len
。 您不能将其与 Spark 一起使用。 我想,你想使用count
。
df = spark.range(10)
print(df.count())
# 10
groupBy
是一个“部分”步骤。 之后没有聚合就不能进行 groupBy 。 如果您只想计算不同“A_1”的数量,请执行以下操作:
df.select("A_1").distinct().count()
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.