根据值将一个数据帧拆分为多个具有相同列标题的数据帧

Question

我有一个如下所示的数据框

+------+------+---+---+---+
| S.No | A    | B | C | D |
+------+------+---+---+---+
| 1    | 0.25 | 2 | 1 | 5 |
+------+------+---+---+---+
| 2    | 1.1  | 4 | 2 | 5 |
+------+------+---+---+---+
| 3    | 1.5  | 6 | 3 | 5 |
+------+------+---+---+---+
| 4    | 0.32 | 3 | 4 | 5 |
+------+------+---+---+---+
| 5    | 1.45 | 5 | 5 | 5 |
+------+------+---+---+---+
| 6    | 1.9  | 7 | 6 | 5 |
+------+------+---+---+---+
| 7    | 0.5  | 3 | 4 | 5 |
+------+------+---+---+---+
| 8    | 1.49 | 5 | 5 | 5 |
+------+------+---+---+---+

我想将它们拆分为具有相同列标题值名称的 3 个数据帧，拆分基于Column A值，即第一个数据帧应从0.25开始并以1.5结束，第二个数据帧应从0.32开始并以1.9结束，第三个数据帧应从0.5开始到1.49结束。 即当column A的值介于0-1之间时，应该开始拆分，它们都应该保留相同的列标题值。 预期输出如下，由于我是新手，我不知道如何正确完成这项工作，对此的任何帮助将不胜感激。

数据框 1：

+------+------+---+---+---+
| S.No | A    | B | C | D |
+------+------+---+---+---+
| 1    | 0.25 | 2 | 1 | 5 |
+------+------+---+---+---+
| 2    | 1.1  | 4 | 2 | 5 |
+------+------+---+---+---+
| 3    | 1.5  | 6 | 3 | 5 |
+------+------+---+---+---+

数据框 2：

+------+------+---+---+---+
| S.No | A    | B | C | D |
+------+------+---+---+---+
| 4    | 0.32 | 3 | 4 | 5 |
+------+------+---+---+---+
| 5    | 1.45 | 5 | 5 | 5 |
+------+------+---+---+---+
| 6    | 1.9  | 7 | 6 | 5 |
+------+------+---+---+---+

数据框 3：

+------+------+---+---+---+
| S.No | A    | B | C | D |
+------+------+---+---+---+
| 7    | 0.5  | 3 | 4 | 5 |
+------+------+---+---+---+
| 8    | 1.49 | 5 | 5 | 5 |
+------+------+---+---+---+

Answer 1

让我们做cumsum

d={x: y for x , y in df.groupby(df.A.between(0,1).cumsum())}

Answer 2

您首先确定值介于 0 和 1 between index 。这是通过between和index的组合完成的。 获得索引后，您可以开始使用iloc方法拆分数据帧

#Identifies indices based on variable A
splitIndices = df.index[df.A.between(0,1)].tolist()


dfList = []

for i in range(len(splitIndices)-1):
    startIndex = splitIndices[i]
    endIndex = splitIndices[i+1]

    tempDf = df.iloc[startIndex : endIndex]

    #Appends the dataframe subset to the output list
    dfList.append(tempDf.copy())

Answer 3

根据您提供的解释，您包含了一个条件，例如：

第一个数据帧应从 0.25 开始并以 1.5 结束

这意味着像0.32这样的值应该包含在数据框中

使用该逻辑，您可以执行以下操作：

l=[.25,1.5,.32,1.9,.5,1.49]
r=[(a,b) for a,b in zip(l[::2],l[1::2])]
for i in r:
    r i in r:
    print(df[df['A'].between(*i,inclusive=True)].sort_values('A'))
    print("----------------------------------")

   S.No     A    B    C    D
0   1.0  0.25  2.0  1.0  5.0
3   4.0  0.32  3.0  4.0  5.0
6   7.0  0.50  3.0  4.0  5.0
1   2.0  1.10  4.0  2.0  5.0
4   5.0  1.45  5.0  5.0  5.0
7   8.0  1.49  5.0  5.0  5.0
2   3.0  1.50  6.0  3.0  5.0
----------------------------------
   S.No     A    B    C    D
3   4.0  0.32  3.0  4.0  5.0
6   7.0  0.50  3.0  4.0  5.0
1   2.0  1.10  4.0  2.0  5.0
4   5.0  1.45  5.0  5.0  5.0
7   8.0  1.49  5.0  5.0  5.0
2   3.0  1.50  6.0  3.0  5.0
5   6.0  1.90  7.0  6.0  5.0
----------------------------------
   S.No     A    B    C    D
6   7.0  0.50  3.0  4.0  5.0
1   2.0  1.10  4.0  2.0  5.0
4   5.0  1.45  5.0  5.0  5.0
7   8.0  1.49  5.0  5.0  5.0

根据值将一个数据帧拆分为多个具有相同列标题的数据帧

问题描述

3 个解决方案

解决方案1
4 2020-01-02 17:43:24

解决方案2
1 已采纳 2020-01-02 17:45:17

解决方案3
1 2020-01-02 17:54:08

根据值将一个数据帧拆分为多个具有相同列标题的数据帧

问题描述

3 个解决方案

解决方案1 4 2020-01-02 17:43:24

解决方案2 1 已采纳 2020-01-02 17:45:17

解决方案3 1 2020-01-02 17:54:08

解决方案1
4 2020-01-02 17:43:24

解决方案2
1 已采纳 2020-01-02 17:45:17

解决方案3
1 2020-01-02 17:54:08