根據Pandas中的堆棧列延長DataFrame

Question

我正在尋找實現以下目的的功能。 最好在示例中顯示。 考慮：

pd.DataFrame([ [1, 2, 3 ], [4, 5, np.nan ]], columns=['x', 'y1', 'y2'])

看起來像：

   x  y1   y2
0  1   2  3
1  4   5  NaN

我想折疊y1和y2列，在必要時加長DataFame，以便輸出為：

也就是說，對於x和y1或x和y2之間的每種組合，需要一行。 我正在尋找一個功能相對有效的函數，因為我有多個y和許多行。

Answer 1

您可以使用stack來完成任務，即

pd.DataFrame(df.set_index('x').stack().reset_index(level=0).values,columns=['x','y'])

     x    y
0  1.0  2.0
1  1.0  3.0
2  4.0  5.0

Answer 2

根據每一行中非空值的計數，重復第一列中的所有項目。 然后，使用其他列中的其余非空值來簡單地創建最終數據框。 可以使用DataFrame.count()方法來算不為空值，並且numpy.repeat()重復基於一個相應的計數陣列上的陣列。

>>> rest = df.loc[:,'y1':]
>>> pd.DataFrame({'x': np.repeat(df['x'], rest.count(1)).values,
                  'y': rest.values[rest.notna()]})

演示：

>>> df
    x   y1   y2   y3   y4
0   1  2.0  3.0  NaN  6.0
1   4  5.0  NaN  9.0  3.0
2  10  NaN  NaN  NaN  NaN
3   9  NaN  NaN  6.0  NaN
4   7  6.0  NaN  NaN  NaN

>>> rest = df.loc[:,'y1':]
>>> pd.DataFrame({'x': np.repeat(df['x'], rest.count(1)).values,
                  'y': rest.values[rest.notna()]})
   x    y
0  1  2.0
1  1  3.0
2  1  6.0
3  4  5.0
4  4  9.0
5  4  3.0
6  9  6.0
7  7  6.0

Answer 3

這是基於NumPy的，您在尋找性能時-

def gather_columns(df):
    col_mask = [i.startswith('y') for i in df.columns]
    ally_vals = df.iloc[:,col_mask].values
    y_valid_mask = ~np.isnan(ally_vals)

    reps = np.count_nonzero(y_valid_mask, axis=1)
    x_vals = np.repeat(df.x.values, reps)
    y_vals = ally_vals[y_valid_mask]
    return pd.DataFrame({'x':x_vals, 'y':y_vals})

樣品運行-

In [78]: df #(added more cols for variety)
Out[78]: 
   x  y1   y2   y5   y7
0  1   2  3.0  NaN  NaN
1  4   5  NaN  6.0  7.0

In [79]: gather_columns(df)
Out[79]: 
   x    y
0  1  2.0
1  1  3.0
2  4  5.0
3  4  6.0
4  4  7.0

如果y列始終從第二列開始直到結尾，我們可以簡單地對數據幀進行切片，從而進一步提高性能，如下所示-

def gather_columns_v2(df):
    ally_vals = df.iloc[:,1:].values
    y_valid_mask = ~np.isnan(ally_vals)

    reps = np.count_nonzero(y_valid_mask, axis=1)
    x_vals = np.repeat(df.x.values, reps)
    y_vals = ally_vals[y_valid_mask]
    return pd.DataFrame({'x':x_vals, 'y':y_vals})

根據Pandas中的堆棧列延長DataFrame

問題描述

3 個解決方案

解決方案1
3 2018-05-23 07:16:04

解決方案2
2 2018-05-23 07:09:50

解決方案3
1 已采納 2018-05-23 06:58:01

根據Pandas中的堆棧列延長DataFrame

問題描述

3 個解決方案

解決方案1 3 2018-05-23 07:16:04

解決方案2 2 2018-05-23 07:09:50

解決方案3 1 已采納 2018-05-23 06:58:01

解決方案1
3 2018-05-23 07:16:04

解決方案2
2 2018-05-23 07:09:50

解決方案3
1 已采納 2018-05-23 06:58:01