繁体 English 中英

PySpark：在多列中计数值的最快方法

[英]PySpark: Fastest way of counting values in multiple columns

原文 2021-05-06 07:22:55 2 2 python/ apache-spark/ pyspark/ apache-spark-sql

我需要在几列中计算一个值，并且我希望列表中每一列的所有这些单独计数。

有没有更快/更好的方法来做到这一点？ 因为我的解决方案需要相当长的时间。

dataframe.cache()
list = [dataframe.filter(col(str(i)) == "value").count() for i in range(150)]

2 个解决方案

您可以进行条件计数聚合：

import pyspark.sql.functions as F

df2 = df.agg(*[
    F.count(F.when(F.col(str(i)) == "value", 1)).alias(i) 
    for i in range(150)
])

result = df2.toPandas().transpose()[0].tolist()

您可以尝试以下方法/设计

为数据帧的每一行写一个 map function，如下所示：

VALUE = 'value'

def row_mapper(df_row):
    return [each == VALUE for each in df_row]

为数据帧编写一个减少 function ，将 2 个两行作为输入：

def reduce_rows(df_row1, df_row2):
    return [x + y for x, y in zip(df_row1, df_row2)]

注意：这些是简单的 python function 来帮助您了解一些您可以直接应用于 PySpark 的 udf 函数。

map df 上的字典的最快方法（多列）

[英]Fastest way to map a dict on a df (multiple columns)

在多列上筛选熊猫数据框的最快方法

[英]Fastest way to filter a pandas dataframe on multiple columns

在 Pyspark 中按顺序应用多个正则表达式进行文本清理的最快方法

[英]Fastest way to apply multiple regular expressions sequentially for text cleaning in Pyspark

对具有多个值和权重的项目进行排名的最快方法

[英]Fastest way to rank items with multiple values and weightings

跨多列计算 Pivot 中的字符串值

[英]Counting String Values in Pivot Across Multiple Columns

在多列中按类别计算 dataframe 值

[英]Counting dataframe values by category in multiple columns

计算多列 Pandas 中的值

[英]Counting values from multiple columns Pandas

在其他列熊猫上按给定条件填充多列的最快方法

[英]Fastest way to fill multiple columns by a given condition on other columns pandas

将 2 个 Pandas 列彼此相乘并获得值总和的最快方法

[英]Fastest way to multiply 2 Pandas columns with each other and get the sum of the values

在熊猫（Python）中比较列值的最快方法是什么

[英]What is the Fastest way to compare values across columns in pandas (Python)

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 map df 上的字典的最快方法（多列）在多列上筛选熊猫数据框的最快方法在 Pyspark 中按顺序应用多个正则表达式进行文本清理的最快方法对具有多个值和权重的项目进行排名的最快方法跨多列计算 Pivot 中的字符串值在多列中按类别计算 dataframe 值计算多列 Pandas 中的值在其他列熊猫上按给定条件填充多列的最快方法将 2 个 Pandas 列彼此相乘并获得值总和的最快方法在熊猫（Python）中比较列值的最快方法是什么

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM