簡體   English   中英

如何在列中的每個不同值上拆分 DataFrame?

[英]How to split a DataFrame on each different value in a column?

下面是一個示例數據幀。

      0      1     2     3          4
0   0.0  13.00  4.50  30.0   0.0,13.0
1   0.0  13.00  4.75  30.0   0.0,13.0
2   0.0  13.00  5.00  30.0   0.0,13.0
3   0.0  13.00  5.25  30.0   0.0,13.0
4   0.0  13.00  5.50  30.0   0.0,13.0
5   0.0  13.00  5.75   0.0   0.0,13.0
6   0.0  13.00  6.00  30.0   0.0,13.0
7   1.0  13.25  0.00  30.0  0.0,13.25
8   1.0  13.25  0.25   0.0  0.0,13.25
9   1.0  13.25  0.50  30.0  0.0,13.25
10  1.0  13.25  0.75  30.0  0.0,13.25
11  2.0  13.25  1.00  30.0  0.0,13.25
12  2.0  13.25  1.25  30.0  0.0,13.25
13  2.0  13.25  1.50  30.0  0.0,13.25
14  2.0  13.25  1.75  30.0  0.0,13.25
15  2.0  13.25  2.00  30.0  0.0,13.25
16  2.0  13.25  2.25  30.0  0.0,13.25

當第 0 列中的行發生更改時,我想將其拆分為新的數據幀。

      0      1     2     3          4
0   0.0  13.00  4.50  30.0   0.0,13.0
1   0.0  13.00  4.75  30.0   0.0,13.0
2   0.0  13.00  5.00  30.0   0.0,13.0
3   0.0  13.00  5.25  30.0   0.0,13.0
4   0.0  13.00  5.50  30.0   0.0,13.0
5   0.0  13.00  5.75   0.0   0.0,13.0
6   0.0  13.00  6.00  30.0   0.0,13.0

7   1.0  13.25  0.00  30.0  0.0,13.25
8   1.0  13.25  0.25   0.0  0.0,13.25
9   1.0  13.25  0.50  30.0  0.0,13.25
10  1.0  13.25  0.75  30.0  0.0,13.25

11  2.0  13.25  1.00  30.0  0.0,13.25
12  2.0  13.25  1.25  30.0  0.0,13.25
13  2.0  13.25  1.50  30.0  0.0,13.25
14  2.0  13.25  1.75  30.0  0.0,13.25
15  2.0  13.25  2.00  30.0  0.0,13.25
16  2.0  13.25  2.25  30.0  0.0,13.25

到目前為止,我已經嘗試調整以下解決方案而沒有任何運氣。 以numpy中的值拆分數組拆分大熊貓數據幀

像你看上去要groupby第一科拉姆。 您可以從 groupby 對象創建一個字典,並將 groupby 鍵作為字典鍵:

out = dict(tuple(df.groupby(0)))

或者我們也可以從 groupby 對象構建一個列表。 當我們只想要位置索引而不是基於分組鍵時,這變得更有用:

out = [sub_df for _, sub_df in df.groupby(0)]

然后我們可以基於分組鍵索引字典,或者基於組位置的列表:

print(out[0])

    0     1     2     3         4
0  0.0  13.0  4.50  30.0  0.0,13.0
1  0.0  13.0  4.75  30.0  0.0,13.0
2  0.0  13.0  5.00  30.0  0.0,13.0
3  0.0  13.0  5.25  30.0  0.0,13.0
4  0.0  13.0  5.50  30.0  0.0,13.0
5  0.0  13.0  5.75   0.0  0.0,13.0
6  0.0  13.0  6.00  30.0  0.0,13.0

基於

當第 0 列中的行發生更改時,我想將其拆分為新的數據幀。

如果您只想在第 0 列中的值更改時進行分組,您可以嘗試:

d=dict([*df.groupby(df['0'].ne(df['0'].shift()).cumsum())])

print(d[1])
print(d[2])

     0     1     2     3         4
0  0.0  13.0  4.50  30.0  0.0,13.0
1  0.0  13.0  4.75  30.0  0.0,13.0
2  0.0  13.0  5.00  30.0  0.0,13.0
3  0.0  13.0  5.25  30.0  0.0,13.0
4  0.0  13.0  5.50  30.0  0.0,13.0
5  0.0  13.0  5.75   0.0  0.0,13.0
6  0.0  13.0  6.00  30.0  0.0,13.0
      0      1     2     3          4
7   1.0  13.25  0.00  30.0  0.0,13.25
8   1.0  13.25  0.25   0.0  0.0,13.25
9   1.0  13.25  0.50  30.0  0.0,13.25
10  1.0  13.25  0.75  30.0  0.0,13.25

我將使用GroupBy.__iter__

d = dict(df.groupby(df['0'].diff().ne(0).cumsum()).__iter__())
#d = dict(df.groupby(df[0].diff().ne(0).cumsum()).__iter__())

注意如果有重復的非連續值會創建不同的組,如果只使用groupby(0)它們會被分組到同一個組中

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM