Python Pandas從現有列和另一個數據框中的數據創建新列

Question

我有一個名為“ mydata”的DataFrame，如果我這樣做

len(mydata.loc['2015-9-2'])

它計算mydata中具有該日期的行數，並返回類似

我還有一個名為“ yourdata”的數據框，看起來像

     timestamp
51   2015-06-22
52   2015-06-23
53   2015-06-24
54   2015-06-25
43   2015-07-13

現在我要使用數據中的每個日期，而不是鍵入每個日期

len(mydata.loc['2015-9-2'])

我可以像這樣使用它們遍歷“ yourdata”

len(mydata.loc[yourdata['timestamp']])

並使用結果生成一個新的DataFrame或僅將每個日期的結果添加到您的數據中的新列，但是我不知道該怎么做？

以下不起作用

yourdata['result'] = len(mydata.loc[yourdata['timestamp']])

這也不

yourdata['result'] = len(mydata.loc[yourdata.iloc[:,-3]])

這確實有效

yourdata['result'] = len(mydata.loc['2015-9-2'])

但是那不好，因為我想使用每一行中的日期而不是某個固定日期。

編輯：mydata的前幾行

    timestamp            BPM
 0  2015-08-30 16:48:00   65
 1  2015-08-30 16:48:10   65
 2  2015-08-30 16:48:15   66
 3  2015-08-30 16:48:20   67
 4  2015-08-30 16:48:30   70

Answer 1

import numpy as np
import pandas as pd

mydata = pd.DataFrame({'timestamp': ['2015-06-22 16:48:00']*3 +
                                    ['2015-06-23 16:48:00']*2 +
                                    ['2015-06-24 16:48:00'] +
                                    ['2015-06-25 16:48:00']*4 +
                                    ['2015-07-13 16:48:00',
                                     '2015-08-13 16:48:00'],
                       'BPM': [65]*8 + [70]*4})
mydata['timestamp'] = pd.to_datetime(mydata['timestamp'])
print(mydata)

#     BPM           timestamp
# 0    65 2015-06-22 16:48:00
# 1    65 2015-06-22 16:48:00
# 2    65 2015-06-22 16:48:00
# 3    65 2015-06-23 16:48:00
# 4    65 2015-06-23 16:48:00
# 5    65 2015-06-24 16:48:00
# 6    65 2015-06-25 16:48:00
# 7    65 2015-06-25 16:48:00
# 8    70 2015-06-25 16:48:00
# 9    70 2015-06-25 16:48:00
# 10   70 2015-07-13 16:48:00
# 11   70 2015-08-13 16:48:00

yourdata = pd.Series(['2015-06-22', '2015-06-23', '2015-06-24',
                      '2015-06-25', '2015-07-13'], name='timestamp')
yourdata = pd.to_datetime(yourdata).to_frame()
print(yourdata)

# 0   2015-06-22
# 1   2015-06-23
# 2   2015-06-24
# 3   2015-06-25
# 4   2015-07-13

result = (mydata.set_index('timestamp').resample('D')
                .size().loc[yourdata['timestamp']]
                .reset_index())
result.columns = ['timestamp', 'result']
print(result)

#    timestamp  result
# 0 2015-06-22       3
# 1 2015-06-23       2
# 2 2015-06-24       1
# 3 2015-06-25       4
# 4 2015-07-13       1

Answer 2

我認為您需要value_counts ，但首先要通過dt.date轉換為日期， dt.date轉換為to_datetime ，最后使用join ：

print (yourdata.join(pd.to_datetime(mydata.timestamp.dt.date)
                       .value_counts()
                       .rename('len'), on='timestamp'))

樣品：

print (mydata)
             timestamp  BPM
0  2015-06-23 16:48:00   65
1  2015-06-23 16:48:10   65
2  2015-06-23 16:48:15   66
3  2015-06-23 16:48:20   67
4  2015-06-22 16:48:30   70

print (yourdata)
     timestamp
51  2015-06-22
52  2015-06-23
53  2015-06-24
54  2015-06-25
43  2015-07-13

#if dtype not datetime
mydata['timestamp'] = pd.to_datetime(mydata['timestamp'])
yourdata['timestamp'] = pd.to_datetime(yourdata['timestamp'])

print (yourdata.join(pd.to_datetime(mydata.timestamp.dt.date)
                       .value_counts()
                       .rename('len'), on='timestamp'))
    timestamp  len
51 2015-06-22  1.0
52 2015-06-23  4.0
53 2015-06-24  NaN
54 2015-06-25  NaN
43 2015-07-13  NaN

Python Pandas從現有列和另一個數據框中的數據創建新列

問題描述

2 個解決方案

解決方案1
1 已采納 2016-07-25 14:52:14

解決方案2
0 2016-07-25 14:49:59

Python Pandas從現有列和另一個數據框中的數據創建新列

問題描述

2 個解決方案

解決方案1 1 已采納 2016-07-25 14:52:14

解決方案2 0 2016-07-25 14:49:59

解決方案1
1 已采納 2016-07-25 14:52:14

解決方案2
0 2016-07-25 14:49:59