如何在 Pandas 中創建新列，條件是重復另一列的值？

Question

我是 Python 的初學者，我有一個大的 DataFrame，它看起來像這樣：

import pandas as pd
df = pd.DataFrame({'Total': [10, 10, 10, 10, 10, 10, 10, 10, 10, 10], \
                    'Type': ['Child', 'Boy', 'Girl', 'Senior', '', '', '', '', '', ''], \
                    'Count': [4, 5, 1, 0, '', '', '', '', '', '']})
df[["Total", "Type", "Count"]]
df

輸出：

   Total    Type    Count
0   10     Child    4
1   10       Boy    5
2   10      Girl    1
3   10     Senior   0
4   10      
5   10      
6   10      
7   10      
8   10      
9   10

我想要這樣的東西：

    Total   Type    Count   New
0   10     Child       4    Child
1   10       Boy       5    Child
2   10      Girl       1    Child
3   10    Senior       0    Child
4   10                      Boy
5   10                      Boy
6   10                      Boy
7   10                      Boy
8   10                      Boy
9   10                      Girl

我不知道如何創建一個新列，條件是重復Type ntime 作為Count 。

謝謝！

Answer 1

使用repeat ， replace Count的空白replace為 0

df['New']=df.Type.repeat(df.Count.replace('',0)).values
df
Out[657]: 
  Count  Total    Type    New
0     4     10   Child  Child
1     5     10     Boy  Child
2     1     10    Girl  Child
3     0     10  Senior  Child
4           10            Boy
5           10            Boy
6           10            Boy
7           10            Boy
8           10            Boy
9           10           Girl

Answer 2

不確定這是否是最快的方法，但它很簡單：

from itertools import chain
import pandas as pd

df = pd.DataFrame({'Total': [10, 10, 10, 10, 10, 10, 10, 10, 10, 10], \
                    'Type': ['Child', 'Boy', 'Girl', 'Senior', '', '', '', '', '', ''], \
                    'Count': [4, 5, 1, 0, '', '', '', '', '', '']})
df['New'] = list(chain.from_iterable([t] * c for t, c in zip(df.Type, df.Count) if c))
print(df)

輸出：

  Count  Total    Type    New
0     4     10   Child  Child
1     5     10     Boy  Child
2     1     10    Girl  Child
3     0     10  Senior  Child
4           10            Boy
5           10            Boy
6           10            Boy
7           10            Boy
8           10            Boy
9           10           Girl

Answer 3

試試這個，

df['New']= sum((df[df['Type']!=''].apply(lambda x: x['Count']*[x['Type']],axis=1)).values,[])

輸出：

  Count  Total    Type repeat
0     4     10   Child  Child
1     5     10     Boy  Child
2     1     10    Girl  Child
3     0     10  Senior  Child
4           10            Boy
5           10            Boy
6           10            Boy
7           10            Boy
8           10            Boy
9           10           Girl

Answer 4

試試下面的代碼，我將df['Type']乘以df['Type'] df['Count']然后展開列表，然后為平面列表創建一個新列：

import numpy as np
import pandas as pd
df = pd.DataFrame({'Total': [10, 10, 10, 10, 10, 10, 10, 10, 10, 10], \
                    'Type': ['Child', 'Boy', 'Girl', 'Senior', '', '', '', '', '', ''], \
                    'Count': [4, 5, 1, 0, '', '', '', '', '', '']})
dropped = [str((x+' ')*y).split() for x,y in list(zip(df['Type'].tolist(),df['Count'].tolist())) if type(x) and type(y) != str]
df['New'] = sum(dropped, [])
print(df)

輸出：

     Count Total Type   New
0     4     10   Child  Child
1     5     10     Boy  Child
2     1     10    Girl  Child
3     0     10  Senior  Child
4           10            Boy
5           10            Boy
6           10            Boy
7           10            Boy
8           10            Boy
9           10           Girl

Answer 5

這是使用itertools.chain和itertools.repeat一種方式：

from itertools import chain, repeat

# calculate number of non-blank rows
n = (df['Type'] != '').sum()

# extract values for these rows
vals = df[['Type', 'Count']].iloc[:n].values

# iterate and repeat values
df['New'] = list(chain.from_iterable(repeat(*row) for row in vals))

print(df)

  Count  Total    Type    New
0     4     10   Child  Child
1     5     10     Boy  Child
2     1     10    Girl  Child
3     0     10  Senior  Child
4           10            Boy
5           10            Boy
6           10            Boy
7           10            Boy
8           10            Boy
9           10           Girl

如何在 Pandas 中創建新列，條件是重復另一列的值？

問題描述

5 個解決方案

解決方案1
8 已采納 2018-06-07 13:46:21

解決方案2
2 2018-06-07 11:40:56

解決方案3
1 2018-06-07 11:54:33

解決方案4
1 2018-06-07 12:24:18

解決方案5
1 2018-06-07 12:43:57

如何在 Pandas 中創建新列，條件是重復另一列的值？

問題描述

5 個解決方案

解決方案1 8 已采納 2018-06-07 13:46:21

解決方案2 2 2018-06-07 11:40:56

解決方案3 1 2018-06-07 11:54:33

解決方案4 1 2018-06-07 12:24:18

解決方案5 1 2018-06-07 12:43:57

解決方案1
8 已采納 2018-06-07 13:46:21

解決方案2
2 2018-06-07 11:40:56

解決方案3
1 2018-06-07 11:54:33

解決方案4
1 2018-06-07 12:24:18

解決方案5
1 2018-06-07 12:43:57