Pandas Dataframe创建一个独特的列

Question

我有这个数据帧：

我想添加每列，作为duration + credit_amount ，所以我创建了以下算法：

def automate_add(add):
  for i, column in enumerate(df):
    for j, operando in enumerate(df):
        if column != operando:
            columnName = column + '_sum_' + operando
            add[columnName] = df[column] + df[operando]

与输出：

duration_sum_credit_amount
duration_sum_installment_commitment
credit_amount_sum_duration
credit_amount_sum_installment_commitment
installment_commitment_sum_duration
installment_commitment_sum_credit_amount

但是，知道duration + credit_amount = credit_amount + duration 。 我不想重复列。 期望这个函数的结果：

duration_sum_credit_amount
duration_sum_installment_commitment
credit_amount_sum_installment_commitment

我该怎么做？

我试图使用哈希集，但似乎只适用于熊猫系列[1] 。

编辑：数据帧： https ： //www.openml.org/d/31

Answer 1

使用下面的，应该更快地工作：

import itertools

my_list=[(pd.Series(df.loc[:,list(i)].sum(axis=1),\
name='_sum_'.join(df.loc[:,list(i)].columns))) for i in list(itertools.combinations(df.columns,2))]    
final_df=pd.concat(my_list,axis=1)
print(final_df)

  duration_sum_credit_amount  duration_sum_installment_commitment  \
0                        1175                                   10   
1                        5999                                   50   
2                        2108                                   14   
3                        7924                                   44   
4                        4894                                   27   

   credit_amount_sum_installment_commitment  
0                                      1173  
1                                      5953  
2                                      2098  
3                                      7884  
4                                      4873

说明： print(list(itertools.combinations(df.columns,2)))给出：

[('duration', 'credit_amount'),
('duration', 'installment_commitment'),
 ('credit_amount', 'installment_commitment')]

帖子那样做：

for i in list(itertools.combinations(df.columns,2)):
    print(df.loc[:,list(i)])
    print("---------------------------")

这会将列组合打印在一起。 所以我只是在轴= 1上总结它并在pd.series下调用它，并通过加入它们给它一个名字。

发布此信息只需将它们附加到列表中并在轴= 1上连接它们以获得最终结果。 :)

Answer 2

您已经指向了itertools.combinations ，这是正确的工具，并且会为您节省一些循环和重复列的问题。 有关排列，组合等的更多详细信息，请参阅文档。

首先，让我们创建DataFrame，以便我们可以重现这个例子：

import pandas as pd
from itertools import combinations

df = pd.DataFrame({
    'a': [1,2,3],
    'b': [4,5,6],
    'c': [7,8,9]
})

>>> df
    a   b   c
0   1   4   7
1   2   5   8
2   3   6   9

现在让我们开始工作吧。 我们的想法是获取列的所有combinations ，然后执行字典理解以返回类似{column_name: sum} 。 这里是：

>>> pd.DataFrame({c1 + '_sum_' + c2: df[c1] + df[c2] 
                  for c1, c2 in combinations(df.columns, 2)})

    a_sum_b a_sum_c b_sum_c
0   5       8       11
1   7       10      13
2   9       12      15

请注意，您可以将sum替换为在两个pd.Series上运行的任何其他函数。

Answer 3

该函数可以有一个if条件来检查关联添加是否已作为列添加到数据框，如下所示：

def automate_add(add):
  columnLst=[]
  #list where we will add column names to avoid the associate sum columns
  for i, column in enumerate(df):
    for j, operando in enumerate(df):
        if column != operando:
            if operando + '_sum_' + column not in columnLst:
                columnName = column + '_sum_' + operando
                add[columnName] = df[column] + df[operando]
                columnLst.append(columnName)

我没有在你的数据上测试过这个。 如果它不起作用，请尝试告诉我。

Pandas Dataframe创建一个独特的列

问题描述

3 个解决方案

解决方案1
2 2019-02-17 18:15:26

解决方案2
1 已采纳 2019-02-17 18:35:55

解决方案3
0 2019-02-17 18:05:46

Pandas Dataframe创建一个独特的列

问题描述

3 个解决方案

解决方案1 2 2019-02-17 18:15:26

解决方案2 1 已采纳 2019-02-17 18:35:55

解决方案3 0 2019-02-17 18:05:46

解决方案1
2 2019-02-17 18:15:26

解决方案2
1 已采纳 2019-02-17 18:35:55

解决方案3
0 2019-02-17 18:05:46