有没有更有效的方法来聚合数据集并在 Python 或 R 中计算频率？

Question

我有一个数据集 [0, 1, 1, 2]，我想聚合它。 为此，我必须手动计算并将“频率”：1/4 放入 DataFrame 中。 这是代码。

>>> df = pd.DataFrame({'value':[0, 1, 1, 2],
...             'frequency':1/4})
>>> df.groupby('value').sum()
       frequency
value           
0           0.25
1           0.50
2           0.25

有没有更有效的方法来聚合数据集并在 Python 或 R 中自动计算频率？

Answer 1

df['value'].value_counts(normalize=True,sort=False)

也许你可以试试这个...

参考：-

pandas.Series.value_counts（）

Answer 2

在R中

prop.table(table(dat$value))

   0    1    2 
0.25 0.50 0.25

在python中，NumPy

import numpy as np 
u,c=np.unique(df.value,return_counts=True)
pd.Series(c/c.sum(),index=u)
0    0.25
1    0.50
2    0.25
dtype: float64

Answer 3

在R您可以执行以下操作

library(data.table)
dt <- data.table(sample(0:2,100,replace=TRUE))
dt[,.N/nrow(dt),V1]

## > dt[,.N/nrow(dt),V1]

##    V1   V1
## 1:  1 0.33
## 2:  2 0.32
## 3:  0 0.35

Answer 4

不使用熊猫就可以使用Counter

from collections import Counter
z = [0,1,1,2]
Counter(z)
Counter({1: 2, 0: 1, 2: 1})

然后到一个数据框

x = Counter(z)
df = pd.DataFrame.from_dict(x, orient='index').reset_index()

然后将值除以4（您所需的频率）

Answer 5

import pandas as pd
pd.Series([0, 1, 1, 2]).value_counts(normalize=True, sort=False)

有没有更有效的方法来聚合数据集并在 Python 或 R 中计算频率？

问题描述

4 个解决方案

解决方案1
2 2019-03-16 14:14:52

解决方案2
2 2019-03-16 14:39:13

解决方案3
1 2019-03-16 14:35:24

解决方案4
0 2019-03-16 14:18:35

解决方案5
0 已采纳 2019-03-16 14:24:05

有没有更有效的方法来聚合数据集并在 Python 或 R 中计算频率？

问题描述

4 个解决方案

解决方案1 2 2019-03-16 14:14:52

解决方案2 2 2019-03-16 14:39:13

解决方案3 1 2019-03-16 14:35:24

解决方案4 0 2019-03-16 14:18:35

解决方案5 0 已采纳 2019-03-16 14:24:05

解决方案1
2 2019-03-16 14:14:52

解决方案2
2 2019-03-16 14:39:13

解决方案3
1 2019-03-16 14:35:24

解决方案4
0 2019-03-16 14:18:35

解决方案5
0 已采纳 2019-03-16 14:24:05