Pandas：在一列上合並兩個不同大小的數據框

Question

我的第一個數據框 (df1) 如下所示：

      pvalue    trend               time                
0   0.000065    0.000076    2019-03-18 04:00:04 
1   0.000087    0.000098    2019-03-18 04:00:06 
2   0.000000    0.000000    2019-03-18 04:00:22 
3   0.000000    0.000087    2019-03-18 04:02:29 
4   0.000000    0.000000    2019-03-18 04:03:04
5   0.000000    0.000023    2019-03-18 04:03:05 
6   0.000000    0.000000    2019-03-18 04:03:18 
7   0.000000    0.000067    2019-03-18 04:18:55 
8   0.000000    0.000000    2019-03-18 04:18:56 
9   0.000000    0.000000    2019-03-18 04:20:41

我的第二個數據 (df2) 看起來像這樣：

                time      price
0   2019-03-18 04:00:00  0.00190633
1   2019-03-18 04:00:01  0.00190633
2   2019-03-18 04:00:02  0.00190633
3   2019-03-18 04:00:03  0.00190633
4   2019-03-18 04:00:04  0.00190633
5   2019-03-18 04:00:05  0.00190633
6   2019-03-18 04:00:06  0.00190800
7   2019-03-18 04:00:07  0.00190800
8   2019-03-18 04:00:08  0.00190800
9   2019-03-18 04:00:09  0.00190800

df2['time']在每一行，有一秒的變化。 但是在 df1 上，每個df1['time']之間有幾秒鍾的一些差距......我想要的是以下內容：

                time      price     pvalue  trend
0   2019-03-18 04:00:00 0.00190633 0.000000 0.000000
1   2019-03-18 04:00:01 0.00190633 0.000000 0.000000
2   2019-03-18 04:00:02 0.00190633 0.000000 0.000000
3   2019-03-18 04:00:03 0.00190633 0.000000 0.000000
4   2019-03-18 04:00:04 0.00190633 0.000065 0.000076
5   2019-03-18 04:00:05 0.00190633 0.000000 0.000000
6   2019-03-18 04:00:06 0.00190800 0.000087 0.000098

所以基本上擁有所有的秒數，當 df1 中有 pvalue 和趨勢的數據時，將它們放入新的數據框中。 我嘗試的是以下內容： df_all =df_pvalue_trade.merge(df_check,on='time',left_index=True)但我只有 df1 的行，而不是像我的例子中的每一秒......知道嗎？ 謝謝！

我使用上述嘗試過的代碼的結果如下：

pvalue  trend   time    mkt_result  price
6   0.000000    0.000000    2019-03-18 04:00:06 reject Ha := upward OR downward trend   0.00190800
21  0.000000    0.000000    2019-03-18 04:00:21 reject Ha := upward OR downward trend   0.00190800
22  0.000000    0.000000    2019-03-18 04:00:22 reject Ha := upward OR downward trend   0.00190800
149 0.000000    0.000000    2019-03-18 04:02:29 reject Ha := upward OR downward trend   0.00190594
184 0.000000    0.000000    2019-03-18 04:03:04 reject Ha := upward OR downward trend   0.00190594
185 0.000000    0.000000    2019-03-18 04:03:05 reject Ha := upward OR downward trend   0.00190594
198 0.000000    0.000000    2019-03-18 04:03:18 reject Ha := upward OR downward trend   0.00190594

這不是我想要的......

Answer 1

使用與DataFrame.fillna merge ：

df = pd.merge(df2, df1, on='time', how='left').fillna(0)
print (df)
                 time     price    pvalue     trend
0 2019-03-18 04:00:00  0.001906  0.000000  0.000000
1 2019-03-18 04:00:01  0.001906  0.000000  0.000000
2 2019-03-18 04:00:02  0.001906  0.000000  0.000000
3 2019-03-18 04:00:03  0.001906  0.000000  0.000000
4 2019-03-18 04:00:04  0.001906  0.000065  0.000076
5 2019-03-18 04:00:05  0.001906  0.000000  0.000000
6 2019-03-18 04:00:06  0.001908  0.000087  0.000098
7 2019-03-18 04:00:07  0.001908  0.000000  0.000000
8 2019-03-18 04:00:08  0.001908  0.000000  0.000000
9 2019-03-18 04:00:09  0.001908  0.000000  0.000000

此外，如果需要更換NaN從唯一的列df1.columns這就像不同df2.columns ：

d = dict.fromkeys(df1.columns.difference(df2.columns), 0)
print (d)
{'pvalue': 0, 'trend': 0}

df = pd.merge(df2, df1, on='time', how='left').fillna(d)
print (df)
                 time     price    pvalue     trend
0 2019-03-18 04:00:00  0.001906  0.000000  0.000000
1 2019-03-18 04:00:01  0.001906  0.000000  0.000000
2 2019-03-18 04:00:02  0.001906  0.000000  0.000000
3 2019-03-18 04:00:03  0.001906  0.000000  0.000000
4 2019-03-18 04:00:04  0.001906  0.000065  0.000076
5 2019-03-18 04:00:05  0.001906  0.000000  0.000000
6 2019-03-18 04:00:06  0.001908  0.000087  0.000098
7 2019-03-18 04:00:07  0.001908  0.000000  0.000000
8 2019-03-18 04:00:08  0.001908  0.000000  0.000000
9 2019-03-18 04:00:09  0.001908  0.000000  0.000000

Pandas：在一列上合並兩個不同大小的數據框

問題描述

1 個解決方案

解決方案1
1 已采納 2019-03-28 14:47:08

Pandas：在一列上合並兩個不同大小的數據框

問題描述

1 個解決方案

解決方案1 1 已采納 2019-03-28 14:47:08

解決方案1
1 已采納 2019-03-28 14:47:08