根據來自另一個數據幀的行中的范圍添加/填充 Pandas 列

Question

使用熊貓，我有 df1 按時間樣本索引：

data = '''\
time       flags    input                  
8228835.0  53153.0  32768.0
8228837.0  53153.0  32768.0
8228839.0  53153.0  32768.0
8228841.0  53153.0  32768.0
8228843.0  61345.0  32768.0'''

fileobj = pd.compat.StringIO(data)
df1 = pd.read_csv(fileobj, sep='\s+', index_col='time')

df2 表示帶有開始和結束的時間范圍，以定義“檢查”狀態為 True 的范圍：

data = '''\
        check     start       end
20536   True   8228837   8228993
20576   True   8232747   8232869
20554   True   8230621   8230761
20520   True   8227351   8227507
20480   True   8223549   8223669
20471   True   8221391   8221553'''

fileobj = pd.compat.StringIO(data)
df2 = pd.read_csv(fileobj, sep='\s+')

我需要做的是向 df1 添加一列“檢查”，並使用 True 值填寫 df2 中定義的實際時間范圍。 所有其他人都應該是假的。 一個示例結果是：

             flags    input    check
time                       
8228835.0  53153.0  32768.0    False
8228837.0  53153.0  32768.0    True
8228839.0  53153.0  32768.0    True
8228841.0  53153.0  32768.0    True
8228843.0  61345.0  32768.0    True
....
8228994.0. 12424.0. 32768.0.   False

Answer 1

您可以創建一個列表或范圍，然后將pd.Index.isin與itertools.chain pd.Index.isin使用：

from itertools import chain

df2 = df2[df2['check']]

ranges = map(range, df2['start'], df2['end'])

df1['check'] = df1.index.isin(chain.from_iterable(ranges))

print(df1)

             flags    input  check
time                              
8228835.0  53153.0  32768.0  False
8228837.0  53153.0  32768.0   True
8228839.0  53153.0  32768.0   True
8228841.0  53153.0  32768.0   True
8228843.0  61345.0  32768.0   True

Answer 2

我認為您可以將IntervalIndex與loc

df2.index=pd.IntervalIndex.from_arrays(df2.start,df2.end,'both')
df2.loc[df.index]
Out[174]: 
        check  start  end
[1, 2]   True      1    2
[4, 5]   True      4    5
[7, 8]   True      7    8
df['newcol']=df2.loc[df.index].check.values.tolist()
df
Out[176]: 
       flags    input  newcol
flags                        
2          2  32768.0    True
4          4  32768.0    True
7          7  32768.0    True

Answer 3

使用any()列表理解。 雖然不知道實際性能，但如果您能為我們運行 %timings 就好了！

df1['check'] = [any(start <= i <= end for start,end in 
                    zip(df2['start'], df2['end'])) for i in df1.index]

print(df1)

返回：

             flags    input  check
time                              
8228835.0  53153.0  32768.0  False
8228837.0  53153.0  32768.0   True
8228839.0  53153.0  32768.0   True
8228841.0  53153.0  32768.0   True
8228843.0  61345.0  32768.0   True

根據來自另一個數據幀的行中的范圍添加/填充 Pandas 列

問題描述

3 個解決方案

解決方案1
2 已采納 2018-08-03 00:34:20

解決方案2
1 2018-08-03 00:00:54

解決方案3
0 2018-08-03 00:08:20

根據來自另一個數據幀的行中的范圍添加/填充 Pandas 列

問題描述

3 個解決方案

解決方案1 2 已采納 2018-08-03 00:34:20

解決方案2 1 2018-08-03 00:00:54

解決方案3 0 2018-08-03 00:08:20

解決方案1
2 已采納 2018-08-03 00:34:20

解決方案2
1 2018-08-03 00:00:54

解決方案3
0 2018-08-03 00:08:20