基於部分startswith匹配合並兩個數據幀

Question

我有兩個 dataframe 我想基於 start with 的部分匹配進行合並（在下面的示例中，df2.B 中以 df1.A 開頭的行，這些列的值是字符串，可以是任何長度）。

我可以通過以下方式做到這一點，但在我的實際數據幀上非常慢，每個數據幀都有數百萬行。

df1 = pd.DataFrame({'A': ['a', 'b', 'cc']})

df2 = pd.DataFrame({'B': ['ar', 'd', 'ar'],
                    'C': ['x1', 'x1', 'x2']})

df_m = pd.DataFrame(columns=['A','B','C'])
for index, row in df1.iterrows():
    df_ = df2[df2['B'].str.startswith(row['A'])]
    if not df_.empty:
        df_['A'] = row['A']
        df_m = df_m.append(df_)

df_m:

    A   B   C
0   a   ar  x1
2   a   ar  x2

Answer 1

使用Series.str.extract從df2中的 B 列中提取鍵，該key從df1中的 A 列開始，然后使用DataFrame.merge將column A上的數據幀df1和列key上的df2合並：

key = df2['B'].str.extract('^(' + '|'.join(df1['A']) + ')')
df3 = df1.merge(df2.assign(key=key), left_on='A', right_on='key').drop('key', 1)

結果：

df3
   A   B   C
0  a  ar  x1
1  a  ar  x2

Answer 2

我們可以用regex做findall

reg='^('+'|'.join(df1.A.tolist())+')'
df2['A']=df2.B.str.findall(reg).str[0]
df2
Out[60]: 
    B   C  A
0  ar  x1  a
1  ba  x1  b
2  ar  x2  a

Answer 3

如果你想使用df.merge ，你可以這樣做：

df2[['l1','l2']] = pd.DataFrame(df2.B.apply(list).tolist(),index= df2.index)     
df_m = df1.merge(df2, left_on='A', right_on='l1').drop(['l1', 'l2'], 1)

Output：

In [70]: df_m 
Out[70]: 
   A   B   C
0  a  ar  x1
1  a  ar  x2

基於部分startswith匹配合並兩個數據幀

問題描述

3 個解決方案

解決方案1
4 已采納 2020-06-24 17:55:18

解決方案2
2 2020-06-24 17:35:36

解決方案3
2 2020-06-24 17:56:47

基於部分startswith匹配合並兩個數據幀

問題描述

3 個解決方案

解決方案1 4 已采納 2020-06-24 17:55:18

解決方案2 2 2020-06-24 17:35:36

解決方案3 2 2020-06-24 17:56:47

解決方案1
4 已采納 2020-06-24 17:55:18

解決方案2
2 2020-06-24 17:35:36

解決方案3
2 2020-06-24 17:56:47