通过计算熊猫另一列中的不同值来创建新列

Question

您好，我有一个数据框，例如：

COL1_1 COL1_3            COL2
Chr1_0 Canis_lupus       A
Chr1_0 Canis_lupus       A
Chr1_0 Canis_lupus       B
Chr1_0 Canis_lupus       B
Chr1_0 Canis_lupus       B
Chr1_0 Felis_cattus      B
Chr1_0 Felis_cattus      B
Chr2_0 Felis_cattus      A
Chr2_0 Felis_cattus      B
Chr2_1 Felis_cattus      C
Chr2_1 Felis_cattus      D
Chr2_1 Felis_cattus      E

并且这个想法是在每个COL1_1和COL1_3计算不同COL2的数量。

例如：对于Chr1_0和Canis_lupus ，有 2 个不同的COL2 （A 和 B），所以我将 2 个放入新的COL3 。

如果只有一个值，我放一个 0。

在这里我应该得到

COL1_1 COL1_3            COL2  COL3
Chr1_0 Canis_lupus       A     2
Chr1_0 Canis_lupus       A     2
Chr1_0 Canis_lupus       B     2
Chr1_0 Canis_lupus       B     2
Chr1_0 Canis_lupus       B     2
Chr1_0 Felis_cattus      B     0
Chr1_0 Felis_cattus      B     0
Chr2_0 Felis_cattus      A     2
Chr2_0 Felis_cattus      B     2
Chr2_1 Felis_cattus      C     3
Chr2_1 Felis_cattus      D     3
Chr2_1 Felis_cattus      E     3

也许一个想法是分组（COL1_1 and COL1_3`）并计算不同 COL2 值的数量。

Answer 1

使用GroupBy.transform与DataFrameGroupBy.nunique和Series.mask替换1到0 ：

df['COL3'] = (df.groupby(['COL1_1', 'COL1_3']).COL2.transform('nunique')
                .mask(lambda x: x == 1, 0))

或使用replace ：

df['COL3'] = df.groupby(['COL1_1', 'COL1_3']).COL2.transform('nunique').replace({1:0})

print (df)
    COL1_1        COL1_3 COL2  COL3
0   Chr1_0   Canis_lupus    A     2
1   Chr1_0   Canis_lupus    A     2
2   Chr1_0   Canis_lupus    B     2
3   Chr1_0   Canis_lupus    B     2
4   Chr1_0   Canis_lupus    B     2
5   Chr1_0  Felis_cattus    B     0
6   Chr1_0  Felis_cattus    B     0
7   Chr2_0  Felis_cattus    A     2
8   Chr2_0  Felis_cattus    B     2
9   Chr2_1  Felis_cattus    C     3
10  Chr2_1  Felis_cattus    D     3
11  Chr2_1  Felis_cattus    E     3

通过计算熊猫另一列中的不同值来创建新列

问题描述

1 个解决方案

解决方案1
2 已采纳 2020-11-03 10:17:04

通过计算熊猫另一列中的不同值来创建新列

问题描述

1 个解决方案

解决方案1 2 已采纳 2020-11-03 10:17:04

解决方案1
2 已采纳 2020-11-03 10:17:04