繁体   English   中英

在熊猫数据框中的新列中添加列表

[英]adding list in a new column in a pandas dataframe

我想创建一个新列,其中包含针对特定列的每一行的一组数据,以创建第一级细分。 例如:

 Level
   1
   2
   3

 Level  Breakdown
   1
           a
           b
           c
           d
   2   
           a
           b
           c
           d
   3
           a
           b
           c
           d 

有什么提示如何在熊猫数据帧上编码此细分?

我知道Multiindex必须具有一个数组来匹配“ Breakdown”。 但是数据帧有超过1万个寄存器,我如何将我的元组与这样的范围结合起来?

实际上,我有一个原始数据库,必须像计划格式一样重新排列。 以下,我可以分享一个小样本: 在此处输入图片描述

因此,我想以这种格式重新排列数据库: 在此处输入图像描述

您可以使用Multiindex实现

但是您将需要一个额外的索引来表示a,b,c,d

arrays = [["1", "1", "1", "2", "2", "2", "2", "3", "3", "3", "3"],
      ["a", "b", "c", "a", "b", "c", "a", "b", "c"]] 
tuples = list(zip(*arrays))

index = pandas.MultiIndex.from_tuples(tuples, names=['Levels','Breakdown'])

s = pandas.DataFrame("your_data", index=index)

使用文档中使用的数据,您的数据框将如下所示:

Levels Breakdown          
1      a         -0.985654
       b          0.782516
       c         -0.896590
2      a          0.841488
       b         -0.577790
       c         -1.130534
       a          0.587779
3      b         -0.935374
       c          1.658043

编辑:

自从您编辑问题后,我提出了建议。 有关详细信息,请查看此问题以及pandas.DataFrame.stack上的pandas 文档

由于您仅发布图片而不是复制数据,因此我没有使用您的值。 但是我的样本数据看起来像这样:

d = {"Line": ["foo", "bar", "baz"], "CUT START": ["a", "b", "c"], 
"CUT FINISH": ["x", "y", "z"],
"END START" :[1, 2, 3], "END FINISH": [4, 5, 6]}

   Line   CUT START CUT FINISH  END START  END FINISH
0  foo         a          x          1           4
1  bar         b          y          2           5
2  baz         c          z          3           6

我像这样转换它:

# Set line as index
df = df.set_index("Line")

activitys = ["CUT", "END"]  # Add the rest of your activitys here
status = ["START", "FINISH"]

df.columns = pandas.MultiIndex.from_product([activitys, status])

返回:

           CUT          END       
     START FINISH START FINISH
Line                          
foo      a      x     1      4
bar      b      y     2      5
baz      c      z     3      6

然后,您可以堆叠。

df = df.stack(0)

         FINISH START
Line                 
foo  CUT      x     a
     END      4     1
bar  CUT      y     b
     END      5     2
baz  CUT      z     c
     END      6     3

现在您只需要重新排序

df.columns = ["START", "FINISH"]

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM