如何找到极坐标系列中最频繁值（模式）的频率？

Question

import polars as pl

df = pl.DataFrame({
    "tags": ["a", "a", "a", "b", "c", "c", "c", "c", "d"] 
})

这是使用.mode表达式计算列中最频繁的元素的方法：

df.select([
    pl.col("tags").mode().alias("mode"),
])

我怎样才能显示该模式的频率/计数？

Answer 1

有一个value_counts表达式。 此表达式将返回Struct数据类型，其中第一个字段是唯一值，第二个字段是该值的计数。

df.select([
    pl.col("tags").value_counts()
])

shape: (4, 1)
┌───────────┐
│ tags      │
│ ---       │
│ struct[2] │
╞═══════════╡
│ {"c",4}   │
├╌╌╌╌╌╌╌╌╌╌╌┤
│ {"a",3}   │
├╌╌╌╌╌╌╌╌╌╌╌┤
│ {"b",1}   │
├╌╌╌╌╌╌╌╌╌╌╌┤
│ {"d",1}   │
└───────────┘

或者，如果您想将该结果作为DataFrame ：

(df.select([
    pl.col("tags").value_counts()
]).to_series().struct.to_frame())

shape: (4, 2)
┌──────┬────────┐
│ tags ┆ counts │
│ ---  ┆ ---    │
│ str  ┆ u32    │
╞══════╪════════╡
│ c    ┆ 4      │
├╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌┤
│ a    ┆ 3      │
├╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌┤
│ d    ┆ 1      │
├╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌┤
│ b    ┆ 1      │
└──────┴────────┘

编辑：这可以更简单：

df["tags"].value_counts()

Answer 2

我找到了这种方法，但我不确定是否有更好的方法：

df.select([
    pl.col("tags").mode().alias("mode"),
    pl.col("tags").filter(pl.col("tags") == pl.col("tags").mode()).count().alias("count")
])

输出：

shape: (1, 2)
┌──────┬───────┐
│ mode ┆ count │
│ ---  ┆ ---   │
│ str  ┆ u32   │
╞══════╪═══════╡
│ c    ┆ 4     │
└──────┴───────┘

如何找到极坐标系列中最频繁值（模式）的频率？

问题描述

2 个解决方案

解决方案1
1 已采纳 2022-05-24 11:14:30

解决方案2
0 2022-05-24 09:01:01

如何找到极坐标系列中最频繁值（模式）的频率？

问题描述

2 个解决方案

解决方案1 1 已采纳 2022-05-24 11:14:30

解决方案2 0 2022-05-24 09:01:01

解决方案1
1 已采纳 2022-05-24 11:14:30

解决方案2
0 2022-05-24 09:01:01