删除列并为每个删除的列创建唯一的行 Pandas Dataframe

Question

这是我遇到的一个非常棘手的问题，它正在抨击我的 memory 管理，这是设置：

我有一个 dataframe 具有以下列设置：

Unique1 Unique2 Unique3 d_1 d_2 d_3..... d_2000
   A       B      C      1   4   0         100

我想删除 d_1...d_2000 列，取而代之的是每个条目都有一个唯一的行：

Unique1 Unique2 Unique3 d_index d_value
   A       B       C      d_1     1
   A       B       C      d_2     4
   A       B       C      d_3     0
   .
   .
   .
   A       B       C      d_2000  100

以下代码为我提供了一个2个DIM系列，可以返回到Z6A8064B5DF47945555555555553C47C55057DZ中，但是由于我需要与一些工作变量一起使用，因此在32GB上运行了32GB的RAM上，ZE206A54E ENTIMS SYPSER SHODY ZER SHODY eNTRESS ON ENTR SHOGTER ON EUNTER SHOGTER ON EUNTER SLYSS ONS SLYSS INTR SHODY ONS SOLDY oty of ENTINS SHOTER SLYS上很少，很快很少。：

def convert_timeseries_to_rows(row):
    d_idx = 1
    rows_to_return = []
    for day_count in row[6:]: ### d columns start from 6
        new = list(row[:6]) ### keep first 6 columns
        day_string = "d_"+str(d_idx)
        new.append(day_string)
        new.append(day_count)
        rows_to_return.append(new)
        d_idx = d_idx + 1
    return rows_to_return ### return all rows generated


2_dim_series = df.apply(convert_timeseries_to_rows, axis=1)


data = []
columns = ['unique1', "unique2"..., 'date_index', 'units']
for each in 2_dim_series :
    for row in each:
        data.append(dict(zip(columns,row)))
data = pd.DataFrame(data)
data.to_csv('save_to_disk.csv')

任何专业人士都可以想到更好的方法来做到这一点（在python中）吗？

谢谢！

示例输入：

Unique1 Unique2 Unique3 d_1 d_2 d_3
   A       B      C      1   4   0 
   D       E      F      5   9   12

示例 Output：

Unique1 Unique2 Unique3 d_index d_value
   A       B       C      d_1     1
   A       B       C      d_2     4
   A       B       C      d_3     0
   D       E       F      d_1     5
   D       E       F      d_2     9
   D       E       F      d_3     12

Answer 1

Pandas对此有一个解决方案：熔化

df.melt(id_vars=['Unique1','Unique2','Unique3'],
        var_name='d_index',
        value_name='d_value')
 .sort_values('Unique1', ignore_index=True)


  Unique1   Unique2 Unique3 d_index d_value
0      A       B    C        d_1    1
1      A       B    C        d_2    4
2      A       B    C        d_3    0
3      D       E    F        d_1    5
4      D       E    F        d_2    9
5      D       E    F        d_3    12

Answer 2

我像这样重新创建了 dataframe：

import pandas as pd
n = 2000
df = pd.DataFrame(columns=['Unique' + str(i) for i in range(1,4)] 
             + ['d_' + str(i) for i in range(n)], 
            data= [['A','B','C']  + np.random.randint(0,100,n).astype(str).tolist()],
                  index = [0])

然后确定您正在使用的列：

d_cols = df.columns[df.columns.str.contains('d_')]
u_cols = df.columns[df.columns.str.contains('Unique')]

然后生成第二个dataframe：

df2 = pd.DataFrame({'d_index':d_cols, 
                    'd_value': df[d_cols].values.flatten()})
for col in u_cols:
    df2[col] = df[col][0]

删除列并为每个删除的列创建唯一的行 Pandas Dataframe

问题描述

2 个解决方案

解决方案1
1 已采纳 2020-06-02 16:38:39

解决方案2
0 2020-06-02 16:32:15

删除列并为每个删除的列创建唯一的行 Pandas Dataframe

问题描述

2 个解决方案

解决方案1 1 已采纳 2020-06-02 16:38:39

解决方案2 0 2020-06-02 16:32:15

解决方案1
1 已采纳 2020-06-02 16:38:39

解决方案2
0 2020-06-02 16:32:15