如何從數據幀中創建序列並將它們放入數組數組或列表中？

Question

對於輸入：

df = pd.DataFrame(np.array([[1,  "A"],[2, "A"],[3, "B"],[4, "C"],[5, "D" ],[6, "A" ],[7, "B" ],[8, "A" ],[9, "C" ],[10, "D" ],[11,"A" ],
                           [12,  "A"],[13, "B"],[14, "B"],[15, "D" ],[16, "A" ],[17, "B" ],[18, "A" ],[19, "C" ],[20, "D" ],[21,"A" ],
                           [22,  "A"],[23, "A"],[24, "C"],[25, "D" ],[26, "A" ],[27, "C" ],[28, "A" ],[29, "C" ],[30, "D" ] ]),
                            columns=['No.',  'Value'])

我得到以下輸出：

現在我想創建數據序列。 該序列定義了一個值區域，直到值“D”出現。 例如在第一個序列中有從No.1到No.5（包含）的行，第二個序列是從No.6到No.10（包含）等等。

之后我想將值編碼為數字：A -> 1, B->2, C->3, D->4 如果在一個序列中，值 A 后跟另一個 A 或許多 A，它將總結為一個數字 1。同樣適用於其他值。

第一個序列 = A,A,B,C,D 為此我想要這樣的東西 = [1,2,3,4]

對於整個輸出，我想要這樣的東西：

result = list([[1,2,3,4],[1,2,1,3,4],[1,2,4],[1,2,1,3,4],[1,3,4],[1,3,1,3,4]])

輸出：

[[1, 2, 3, 4],
 [1, 2, 1, 3, 4],
 [1, 2, 4],
 [1, 2, 1, 3, 4],
 [1, 3, 4],
 [1, 3, 1, 3, 4]]

Answer 1

在這里，我使用cumsum()為同一序列中的所有元素提供“序列 ID”（每次遇到“D”時，該值都會增加 1）

然后使用groupby()按順序分組，並將每個組輸出到一個列表中，該列表依次被過濾以便統一連續的值，如下所示：

import pandas as pd
import numpy as np
from itertools import groupby
from pprint import pprint

df = pd.DataFrame(np.array([[1,  "A"],[2, "A"],[3, "B"],[4, "C"],[5, "D" ],[6, "A" ],[7, "B" ],[8, "A" ],[9, "C" ],[10, "D" ],[11,"A" ],
                           [12,  "A"],[13, "B"],[14, "B"],[15, "D" ],[16, "A" ],[17, "B" ],[18, "A" ],[19, "C" ],[20, "D" ],[21,"A" ],
                           [22,  "A"],[23, "A"],[24, "C"],[25, "D" ],[26, "A" ],[27, "C" ],[28, "A" ],[29, "C" ],[30, "D" ] ]),
                            columns=['No.',  'Value'])

df["NumVal"] = df["Value"].map({"A":1,"B":2,"C":3,"D":4})
df["SequenceID"] = (df["Value"].shift(1) == "D").cumsum()

result = [[nums[0] for nums in groupby(g["NumVal"].tolist())] for k,g in df.groupby("SequenceID")]

pprint(result)

輸出：

[[1, 2, 3, 4],
 [1, 2, 1, 3, 4],
 [1, 2, 4],
 [1, 2, 1, 3, 4],
 [1, 3, 4],
 [1, 3, 1, 3, 4]]

Answer 2

嘗試：

from itertools import groupby
values = df['Value'].replace({'A':1, 'B':2, 'C':3, 'D':4}).values
idx_list = [idx + 1 for idx, val in enumerate(values) if val == 4]
result = [values[i: j] for i, j in zip([0] + idx_list, idx_list + ([len(values)] if idx_list[-1] != len(values) else []))]
result = [[values[0] for values in groupby(l)] for l in result]
print(result)

[[1, 2, 3, 4], 
 [1, 2, 1, 3, 4], 
 [1, 2, 4], 
 [1, 2, 1, 3, 4], 
 [1, 3, 4], 
 [1, 3, 1, 3, 4]]

如何從數據幀中創建序列並將它們放入數組數組或列表中？

問題描述

2 個解決方案

解決方案1
1 2020-01-14 12:45:48

解決方案2
1 已采納 2020-01-14 12:49:52

如何從數據幀中創建序列並將它們放入數組數組或列表中？

問題描述

2 個解決方案

解決方案1 1 2020-01-14 12:45:48

解決方案2 1 已采納 2020-01-14 12:49:52

解決方案1
1 2020-01-14 12:45:48

解決方案2
1 已采納 2020-01-14 12:49:52