在Python中按時間序列箱對項目進行分組

Question

我有看起來像的數據：

[[datetime1, label1],
 [datetime2, label2],
 [datetime3, label3]]

標簽是字符串。 我有一個裝箱參數（delta），它是datetime.timedelta。

我正在嘗試做的是：

提出一組日期時間倉，它們之間的間隔相等。 換句話說，下面，datetimebin2-datetimebin1 = datetimebin3-datetimebin2 = delta。
將標簽裝到那些箱子中。

所以我最終會得到類似：

[[datetimebin1, [label1, label2],
 [datetimebin2, []],
 [datetimebin3, []],
 [datetimebin4, [label3]]

我一直指着熊貓，但沒有找到我想要的東西。 任何幫助深表感謝！

Answer 1

遵循這些原則應該可以：

# data: a lists of lists (length 2) of measurements
# res: resulting list of lists
# delta: time delta

# output list (will be a list of lists, as in the question

res = []
# end of first bin:
binstart = data[0][0]
res.append([binstart, []])

# iterate through the data item
for d in data:
    # if the data item belongs to this bin, append it into the bin
    if d[0] < binstart + delta:
        res[-1][1].append(d[1])
        continue

    # otherwise, create new empty bins until this data fits into a bin
    binstart += delta
    while d[0] > binstart + delta:
        res.append([binstart, [])
        binstart += delta

    # create a bin with the data
    res.append([binstart, [d[1]]])

Answer 2

我認為@DrV是正確的答案，但是我准備了一個示例，試圖展示如何使用Pandas實現類似的功能：

import numpy
import pandas
import datetime
import time

# Binning delta

delta = datetime.timedelta(hours=1)

# Sample data

sample = [
    ['2014-08-09 16:30:00', 'label1'],
    ['2014-08-09 15:30:00', 'label2'],
    ['2014-08-09 14:30:00', 'label3'],
    ['2014-08-09 14:00:00', 'label4']
]

# Create dataframe and append UNIX timestamp column

df = pandas.DataFrame(sample)
df.columns = ['Datetime', 'Label']
df['Datetime'] = pandas.to_datetime(df['Datetime'])
df['UnixStamp'] = df['Datetime'].apply(lambda d: time.mktime(d.timetuple()))
df = df.set_index('Datetime')

# Calculate bins

bins = numpy.arange(min(df['UnixStamp']), max(df['UnixStamp']) + delta.seconds, delta.seconds)

# Group columns by datetime bin

def bin_from_tstamp(tstamp):

    diffs = [abs(tstamp - bin) for bin in bins]
    return bins[diffs.index(min(diffs))]

grouped = df.groupby(df['UnixStamp'].map(
    lambda t: datetime.datetime.fromtimestamp(bin_from_tstamp(t))
))

此時， grouped包含按日期時間箱grouped的數據集。

以下是打印grouped.groups的結果（其中鍵是日期時間倉，值是分組的日期時間）：

{
    numpy.datetime64('2014-08-09T18:00:00.000000000+0200'): [
        Timestamp('2014-08-09 16:30:00')
    ], 
    numpy.datetime64('2014-08-09T17:00:00.000000000+0200'): [
        Timestamp('2014-08-09 15:30:00')
    ], 
    numpy.datetime64('2014-08-09T16:00:00.000000000+0200'): [
        Timestamp('2014-08-09 14:30:00'), 
        Timestamp('2014-08-09 14:00:00'
    ]
}

在Python中按時間序列箱對項目進行分組

問題描述

2 個解決方案

解決方案1
2 已采納 2014-08-09 15:47:08

解決方案2
2 2014-08-09 16:33:02

在Python中按時間序列箱對項目進行分組

問題描述

2 個解決方案

解決方案1 2 已采納 2014-08-09 15:47:08

解決方案2 2 2014-08-09 16:33:02

解決方案1
2 已采納 2014-08-09 15:47:08

解決方案2
2 2014-08-09 16:33:02