如何將時間戳數據拆分為訓練和測試

Question

我有一個帶有時間戳的數據集，如下所示：

date        type, price
1990-01-01, 'A', 100
1990-01-02, 'A', 200
1990-01-03, 'A', 300
1990-01-04, 'A', 400
1990-01-05, 'A', 500
1990-01-06, 'A', 600
1990-01-07, 'A', 700
1990-01-08, 'A', 800
1990-01-09, 'A', 900
1990-01-10, 'A', 1000
1990-01-11, 'B', 1100
1990-01-12, 'B', 1200
1990-01-13, 'B', 1300
1990-01-14, 'B', 1400
1990-01-15, 'B', 1500

我正在嘗試將這些數據拆分為訓練和測試，同時保持基於date的順序。 如果訓練和測試的拆分比為 0.8，則預期的 output 應該是以下數據： train_data：

date        type, price
1990-01-01, 'A', 100
1990-01-02, 'A', 200
1990-01-03, 'A', 300
1990-01-04, 'A', 400
1990-01-05, 'A', 500
1990-01-06, 'A', 600
1990-01-07, 'A', 700
1990-01-08, 'A', 800
1990-01-11, 'B', 1100
1990-01-12, 'B', 1200
1990-01-13, 'B', 1300
1990-01-14, 'B', 1400

測試數據：

    date        type, price
    1990-01-09, 'A', 900
    1990-01-10, 'A', 1000
    1990-01-15, 'B', 1500

有什么辦法可以用 pythonic 方式做到這一點嗎？

Answer 1

變換與變換

# grouper
g = df.groupby("type", sort=False).type

# first is 1..size second is [size, size, ...]
sample_nos  = g.transform("cumcount").add(1)
group_sizes = g.transform("size")

# belongs to training or not
train_mask = sample_nos <= 0.8 * group_sizes

# then choose so
train_data = df[train_mask].copy()
test_data  = df[~train_mask].copy()

train_data

          date type  price
0   1990-01-01  'A'    100
1   1990-01-02  'A'    200
2   1990-01-03  'A'    300
3   1990-01-04  'A'    400
4   1990-01-05  'A'    500
5   1990-01-06  'A'    600
6   1990-01-07  'A'    700
7   1990-01-08  'A'    800
10  1990-01-11  'B'   1100
11  1990-01-12  'B'   1200
12  1990-01-13  'B'   1300
13  1990-01-14  'B'   1400

和

test_data

          date type  price
8   1990-01-09  'A'    900
9   1990-01-10  'A'   1000
14  1990-01-15  'B'   1500

Answer 2

您可以使用groupby和apply方法來拆分數據。

代碼：

import io
import pandas as pd

# Create sample data as string
s = '''date,type,price
1990-01-01,A,100
1990-01-02,A,200
1990-01-03,A,300
1990-01-04,A,400
1990-01-05,A,500
1990-01-06,A,600
1990-01-07,A,700
1990-01-08,A,800
1990-01-09,A,900
1990-01-10,A,1000
1990-01-11,B,1100
1990-01-12,B,1200
1990-01-13,B,1300
1990-01-14,B,1400
1990-01-15,B,1500'''

# Read the sample
df = pd.read_csv(io.StringIO(s))

# Ensure that df is sorted by date at least
df = df.sort_values(['type', 'date']).reset_index(drop=True)

# Split df into train and test dataframes
split_ratio = 0.8
train_data = df.groupby('type', group_keys=False).apply(lambda df: df.head(int(split_ratio * len(df))))
test_data = df[~df.index.isin(train_data.index)]

Output：

# 訓練數據：

	日期	類型	價格
0	1990-01-01	一種	100
1個	1990-01-02	一種	200
2個	1990-01-03	一種	300
3個	1990-01-04	一種	400
4個	1990-01-05	一種	500
5個	1990-01-06	一種	600
6個	1990-01-07	一種	700
7	1990-01-08	一種	800
10	1990-01-11	乙	1100
11	1990-01-12	乙	1200
12	1990-01-13	乙	1300
13	1990-01-14	乙	1400

＃測試數據：

	日期	類型	價格
8個	1990-01-09	一種	900
9	1990-01-10	一種	1000
14	1990-01-15	乙	1500

如何將時間戳數據拆分為訓練和測試

問題描述

2 個解決方案

解決方案1
0

解決方案2
0 2022-02-13 04:04:12

代碼：

Output：

# 訓練數據：

＃測試數據：

如何將時間戳數據拆分為訓練和測試

問題描述

2 個解決方案

解決方案1 0

解決方案2 0 2022-02-13 04:04:12

代碼：

Output：

# 訓練數據：

＃ 測試數據：

解決方案1
0

解決方案2
0 2022-02-13 04:04:12

＃測試數據：