計算 Dataframe Pyspark 中的行數

Question

我想對我的 DF 進行一些檢查，為了嘗試它，我正在使用以下代碼：

start = '2020-12-10'
end = datetime.date.today()
country='gb'


df_ua = (spark.table(f'nn_squad7_{country}.fact_table')
      .filter(f.col('date_key').between(start,end))
      #.filter(f.col('is_client')==1)
      .filter(f.col('source')=='tickets')
      .filter(f.col('subtype')=='trx')
      .filter(f.col('is_trx_ok') == 1) 
      .select('ticket_id').distinct() 
      )

output = df_ua.count('ticket_id').distinct()

我收到以下錯誤：

TypeError：count() 接受 1 個位置參數，但給出了 2 個

我不明白為什么我得到它，任何線索？

Answer 1

只需執行df_ua.count()就足夠了，因為您在上面的行中選擇了不同的ticket_id 。

df.count()返回 dataframe 中的行數。 它不帶任何參數，例如列名。 它還返回 integer - 您不能在 integer 上調用distinct 。

Answer 2

也許你可以試試這個：

import pyspark.sql.functions as f

start = '2020-12-10'
end = datetime.date.today()
country = 'gb'


df_ua = (spark.table(f'nn_squad7_{country}.fact_table')
      .filter(f.col('date_key').between(start, end))
      #.filter(f.col('is_client')==1)
      .filter(f.col('source')=='tickets')
      .filter(f.col('subtype')=='trx')
      .filter(f.col('is_trx_ok') == 1) 
      .select('ticket_id').distinct() 
      )

output = df_ua.count()

計算 Dataframe Pyspark 中的行數

問題描述

2 個解決方案

解決方案1
0 已采納 2020-12-28 13:05:26

解決方案2
0 2020-12-28 13:09:32

計算 Dataframe Pyspark 中的行數

問題描述

2 個解決方案

解決方案1 0 已采納 2020-12-28 13:05:26

解決方案2 0 2020-12-28 13:09:32

解決方案1
0 已采納 2020-12-28 13:05:26

解決方案2
0 2020-12-28 13:09:32