python：循环遍历数据帧列表和列表列表

Question

我有一个数据框列表（lst_dfs），我想使用部分列名列表（lst）对其中的列进行子集化。 列的列表需要使用startswith ，因为有时标识符的结尾是不同的。 数据框列表的索引与名称列表的索引匹配。 它很容易用一个 dataframe 应用，但不能用这个列表/循环。 预期的 output 将是一个字典，其中包含两个数据帧的列表，其中包含子集列，但它返回空。 我认为我的迭代级别不正确（除其他外？）。 非常感谢任何帮助。 非常感谢！

我放入列表的两个数据框

df1 = pd.DataFrame(data={'x':[1,2,3,4,5], 
                         'am.1': [1,1,1,1,1],
                         'abn.1': [1,1,1,1,1],
                         'b1c': [1,1,1,1,1],
                         'b1d': [1,1,1,1,1]})

df2 = pd.DataFrame(data={'x':[1,2,3,4,5], 
                         'am.1': [1,1,1,1,1],
                         'am.1': [1,1,1,1,1],
                         'al.2': [1,1,1,1,1],
                         'b1d': [1,1,1,1,1],
                         'b2d': [1,1,1,1,1]})

lst_dfs = [df1, df1]

lst = (['a','b'],['am','b1'])

dat={}
for i, df in enumerate(lst_dfs):
    for elem in lst:
        print(elem)
        dat[i] = df.loc[(df.columns.str.startswith(str(elem)))]

Answer 1

使用带有regex参数的df.filter过滤掉以列表中的元素开头的列：

from collections import defaultdict
dat = defaultdict(list)

for i, df in enumerate(lst_dfs):
    for elem in lst:
        dat[i].append(df.filter(regex='^('+'|'.join(elem)+')', axis=1))

Output：

>>> dat[0]
[   am.1  abn.1  b1c  b1d
0     1      1    1    1
1     1      1    1    1
2     1      1    1    1
3     1      1    1    1
4     1      1    1    1,    am.1  b1c  b1d
0     1    1    1
1     1    1    1
2     1    1    1
3     1    1    1
4     1    1    1]

python：循环遍历数据帧列表和列表列表

问题描述

1 个解决方案

解决方案1
0 已采纳 2021-06-15 17:54:03

python：循环遍历数据帧列表和列表列表

问题描述

1 个解决方案

解决方案1 0 已采纳 2021-06-15 17:54:03

解决方案1
0 已采纳 2021-06-15 17:54:03