如何在熊貓數據框中將單元格的值拆分為多行？

Question

我有以下數據框，它是使用代碼獲得的：

     df1=df.groupby('id')['x,y'].apply(lambda x: rdp(x.tolist(), 5.0)).reset_index()

請參考這里

得到的結果數據幀為：

      id          x,y
  0   1    [(0, 0), (1, 2)]
  1   2    [(1, 3), (1, 2)]
  2   3    [(2, 5), (4, 6)]

是否有可能得到這樣的東西：

         id      x,y
     0   1      (0, 0)
     1   1      (1, 2)
     2   2      (1, 3)
     3   2      (1, 2)
     4   3      (2, 5)
     5   3      (4, 6)

在此，作為先前df結果的坐標列表將根據其各自的ID分成新的行。

Answer 1

您可以將DataFrame構造函數與stack ：

df2 = pd.DataFrame(df1['x,y'].values.tolist(), index=df1['id'])
        .stack()
        .reset_index(level=1, drop=True)
        .reset_index(name='x,y')
print (df2)

   id     x,y
0   1  (0, 0)
1   1  (1, 2)
2   2  (1, 3)
3   2  (1, 2)
4   3  (2, 5)
5   3  (4, 6)

numpy溶液使用numpy.repeat由lengths由值str.len ， x,y列用flattenig numpy.ndarray.sum ：

df2 = pd.DataFrame({'id': np.repeat(df1['id'].values, df1['x,y'].str.len()), 
                   'x,y': df1['x,y'].values.sum()})

print (df2)
   id     x,y
0   1  (0, 0)
0   1  (1, 2)
1   2  (1, 3)
1   2  (1, 2)
2   3  (2, 5)
2   3  (1, 9)
2   3  (4, 6)

時間：

In [54]: %timeit pd.DataFrame(df1['x,y'].values.tolist(), index=df1['id']).stack().reset_index(level=1, drop=True).reset_index(name='x,y')
1000 loops, best of 3: 1.49 ms per loop

In [55]: %timeit pd.DataFrame({'id': np.repeat(df1['id'].values, df1['x,y'].str.len()), 'x,y': df1['x,y'].values.sum()})
1000 loops, best of 3: 562 µs per loop

#piRSquared solution
In [56]: %timeit pd.DataFrame({'id': df1['id'].repeat(df1['x,y'].str.len()), 'x,y': df1['x,y'].sum() })
1000 loops, best of 3: 712 µs per loop

Answer 2

計算新的'id'列
- 我們可以使用pandas str.len方法快速計算每個元素的子列表中的元素數量。 這很方便，因為我們可以將結果直接傳遞給df1['id']的repeat方法，該方法將從我們傳遞的長度開始，將每個元素重復相應的量。
計算新的'x,y'列
- 通常，我喜歡使用np.concatenate將所有子列表一起推送。 但是，在這種情況下，子列表是元組列表。 np.concatenate不會將它們視為對象列表。 因此，我改為使用sum方法，並且將在列表上使用基礎sum方法，該方法又將串聯在一起。

`pandas`

如果我們堅持使用pandas我們可以使代碼更整潔
對str.len和sum使用repeat

pd.DataFrame({
        'id': df1['id'].repeat(df1['x,y'].str.len()),
        'x,y': df1['x,y'].sum()
    })

   id     x,y
0   1  (0, 0)
0   1  (1, 2)
1   2  (1, 3)
1   2  (1, 2)
2   3  (2, 5)
2   3  (4, 6)

`numpy`

我們可以使用基礎的numpy數組和等效的numpy方法來加快此方法的速度
注意：這是等效邏輯！

pd.DataFrame({
        'id': df1['id'].values.repeat(df1['x,y'].str.len()),
        'x,y': df1['x,y'].values.sum()
    })

我們可以通過跳過str.len方法並使用列表推導來計算長度來進一步提高速度。

pd.DataFrame({
        'id': df1['id'].values.repeat([len(w) for w in df1['x,y'].values.tolist()]),
        'x,y': df1['x,y'].values.sum()
    })

時間測試

小數據

%%timeit
pd.DataFrame({
        'id': df1['id'].values.repeat([len(w) for w in df1['x,y'].values.tolist()]),
        'x,y': df1['x,y'].values.sum()
    })
1000 loops, best of 3: 351 µs per loop

%%timeit
pd.DataFrame({
        'id': df1['id'].repeat(df1['x,y'].str.len()),
        'x,y': df1['x,y'].sum()
    })
1000 loops, best of 3: 590 µs per loop

%%timeit 
pd.DataFrame({'id': np.repeat(df1['id'].values, df1['x,y'].str.len()), 
                   'x,y': df1['x,y'].values.sum()})

1000 loops, best of 3: 498 µs per loop

大數據

df1 = pd.concat([df1.head(3)] * 100, ignore_index=True)

%%timeit
pd.DataFrame({
        'id': df1['id'].values.repeat([len(w) for w in df1['x,y'].values.tolist()]),
        'x,y': df1['x,y'].values.sum()
    })
1000 loops, best of 3: 579 µs per loop

%%timeit
pd.DataFrame({
        'id': df1['id'].repeat(df1['x,y'].str.len()),
        'x,y': df1['x,y'].sum()
    })
1000 loops, best of 3: 841 µs per loop

%%timeit 
pd.DataFrame({'id': np.repeat(df1['id'].values, df1['x,y'].str.len()), 
                   'x,y': df1['x,y'].values.sum()})

1000 loops, best of 3: 704 µs per loop

如何在熊貓數據框中將單元格的值拆分為多行？

問題描述

2 個解決方案

解決方案1
5 已采納 2017-05-02 06:11:25

解決方案2
2 2017-05-02 06:24:25

`pandas`

`numpy`

時間測試

如何在熊貓數據框中將單元格的值拆分為多行？

問題描述

2 個解決方案

解決方案1 5 已采納 2017-05-02 06:11:25

解決方案2 2 2017-05-02 06:24:25

pandas

numpy

時間測試

解決方案1
5 已采納 2017-05-02 06:11:25

解決方案2
2 2017-05-02 06:24:25

`pandas`

`numpy`