Pyspark：如何從表中提取統計信息？

Question

我有一張如下所示的表：

+--------------------+-------------------+-----+
|                  ID|               time|count|
+--------------------+-------------------+-----+
|378101ee32a648ef0...|2020-01-01 11:00:00| 2900|
|ff5d5840742d42beb...|2020-01-01 23:00:00| 1615|
|ff5d5840742d42beb...|2020-01-01 22:00:00| 1589|
|a06f198b200364fb0...|2020-01-01 01:00:00| 1571|
|18991cb9b06c4dbde...|2020-01-01 01:00:00| 1514|
|aaf20cfe4ebc98ca8...|2020-01-01 19:00:00| 1462|
|35e96b1170613db44...|2020-01-01 17:00:00| 1324|
|0eb82275984a3eef0...|2020-01-01 16:00:00| 1305|
|0eb82275984a3eef0...|2020-01-01 17:00:00| 1305|

我想編寫一個查詢，該查詢返回一個表，其中包含與每個 ID count相關的每小時的一些統計信息

例如，我想要一個如下所示的表格：

       time              mean     median     min    max    5thPercentile  95thPercentile
2020-01-01 00:00:00       33        27.5      2    2000       3.4            1300        
2020-01-01 10:00:00       33        27.5      2    2000       2.6            1120

Answer 1

您可以使用窗口函數和聚合。 我認為這可以滿足您的要求：

select time,
       avg(count),
       (max(case when tile = 10 then count end) +
        min(case when tile = 11 then count end)
       ) / 11,
       max(case when tile = 1 then count end) as percentile_05,
       max(case when tile = 19 then count end) as percentile_95
from (select t.*,
             ntile(20) over (partition by count) as tile
      from t
     ) t
group by time;

Answer 2

使用pyspark.sql創建熊貓的類似 DataFrame 的對象。

然后您可以調用describe()來查看有關您的數據的統計信息。

來自文檔的示例：

>>> df.describe(['age']).show()
+-------+------------------+
|summary|               age|
+-------+------------------+
|  count|                 2|
|   mean|               3.5|
| stddev|2.1213203435596424|
|    min|                 2|
|    max|                 5|
+-------+------------------+

Pyspark：如何從表中提取統計信息？

問題描述

2 個解決方案

解決方案1
1 已采納 2020-03-25 11:06:11

解決方案2
0 2020-03-25 11:06:18

Pyspark：如何從表中提取統計信息？

問題描述

2 個解決方案

解決方案1 1 已采納 2020-03-25 11:06:11

解決方案2 0 2020-03-25 11:06:18

解決方案1
1 已采納 2020-03-25 11:06:11

解決方案2
0 2020-03-25 11:06:18