如何在pySpark数据框中添加一个新列，该列包含计数大于0的列值？

Question

我想向pyspark数据框添加一个新列，其中包含在特定行中大于0的所有列值的计数。

这是我的演示数据框。

+-----------+----+----+----+----+----+----+
|customer_id|2010|2011|2012|2013|2014|2015|
+-----------+----+----+----+----+----+----+
|     1     |  0 |  4 |  0 | 32 |  0 | 87 |
|     2     |  5 |  5 | 56 | 23 |  0 | 09 |
|     3     |  6 |  6 | 87 |  0 | 45 | 23 |
|     4     |  7 |  0 | 12 | 89 | 78 | 0  |
|     6     |  0 |  0 |  0 | 23 | 45 | 64 |
+-----------+----+----+----+----+----+----+

以上数据框架一年内被客户拜访。 我想计算一个客户拜访了多少年。 所以我需要一列visit_count ，该列的访问量在年份（2010,2011,2012,2013,2014,2015）中大于0。

+-----------+----+----+----+----+----+----+-----------+
|customer_id|2010|2011|2012|2013|2014|2015|visit_count|
+-----------+----+----+----+----+----+----+-----------+
|     1     |  0 |  4 |  0 | 32 |  0 | 87 |    3      |
|     2     |  5 |  5 | 56 | 23 |  0 | 09 |    5      |
|     3     |  6 |  6 | 87 |  0 | 45 | 23 |    5      |
|     4     |  7 |  0 | 12 | 89 | 78 | 0  |    4      |
|     6     |  0 |  0 |  0 | 23 | 45 | 64 |    3      |
+-----------+----+----+----+----+----+----+-----------+

如何做到这一点？

Answer 1

尝试这个：

df.withColumn('visit_count', sum((df[col] > 0).cast('integer') for col in df.columns))

如何在pySpark数据框中添加一个新列，该列包含计数大于0的列值？

问题描述

1 个解决方案

解决方案1
1 已采纳 2017-01-04 12:07:38

如何在pySpark数据框中添加一个新列，该列包含计数大于0的列值？

问题描述

1 个解决方案

解决方案1 1 已采纳 2017-01-04 12:07:38

解决方案1
1 已采纳 2017-01-04 12:07:38