基於出現合並行，同時在 Python 中的 DataFrame 中保持唯一值

Question

數據框：

Name         Category        Port          Class
A                Code         443        string1
A                Code          80        string2
B                Math         443        string3
A                Code         443        string1
B                Math          80        string4

我嘗試過的代碼：

df1 = df.name.ne(df.name.shift())
count = df.name.groupby(df1.cumsum()).size()

我得到的輸出：

Name     Category      Port       Class     Count
A            Code       443     string1         2
B            Math       443     string3         1
A            Code       443     string1         1
B            Math        80     string4         1

我想要的輸出：

Name    Category         Port               Class   Count
A           Code      443, 80    string1, string2       2
B           Math          443             string3       1
A           Code          443             string1       1
B           Math           80             string4       1

任何幫助表示贊賞。

Answer 1

使用具有適當功能的groupby和agg應該groupby您的需求。 下面使用的list將導致所有值都被保留，如果您只想要唯一的值，您可以將其更改為set 。

df['cumsum'] = df.Name.ne(df.Name.shift()).cumsum()
df2 = df.groupby(df["cumsum"]).agg({'Name': 'first', 'Category': 'first', 'Port': list, 'Class': [list, 'count']})
df2.columns = df2.columns.droplevel(1).values[:-1].tolist() + ['Count']
df2 = df2.reset_index(drop=True)

這會給你：

  Name  Category       Port               Class  Count
0    A      Code  [443, 80]  [string1, string2]      2
1    B      Math      [443]           [string3]      1
2    A      Code      [443]           [string1]      1
3    B      Math       [80]           [string4]      1

Answer 2

這里的關鍵是識別具有通用名稱和類別的連續行。 一個簡單的技巧是使用shift和cumsum ：

x = pd.Series(np.where((df['Name'] == df1['Name'])&(df['Category'] == df1['Category']), 0, 1),
              index = df.index).cumsum()

一旦完成，一個groupby和agg就完成了這項工作：

df.assign(Count=1, Port=df['Port'].astype(str)).groupby(['Name', 'Category',x]).agg(
    {'Port': ', '.join, 'Class': ', '.join, 'Count': 'sum'}).reset_index().drop(columns='level_2')

它給：

  Name Category     Port             Class  Count
0    A     Code  443, 80  string1, string2      2
1    A     Code      443           string1      1
2    B     Math      443           string3      1
3    B     Math       80           string4      1

基於出現合並行，同時在 Python 中的 DataFrame 中保持唯一值

問題描述

2 個解決方案

解決方案1
0 已采納 2020-03-09 09:24:28

解決方案2
0 2020-03-09 09:27:54

基於出現合並行，同時在 Python 中的 DataFrame 中保持唯一值

問題描述

2 個解決方案

解決方案1 0 已采納 2020-03-09 09:24:28

解決方案2 0 2020-03-09 09:27:54

解決方案1
0 已采納 2020-03-09 09:24:28

解決方案2
0 2020-03-09 09:27:54