Python：從DataFrame中的兩列創建結構化的numpy結構化數組

Question

如何從DataFrame中的兩列創建結構化數組？ 我試過這個：

df = pd.DataFrame(data=[[1,2],[10,20]], columns=['a','b'])
df

    a   b
0   1   2
1   10  20

x = np.array([([val for val in list(df['a'])],
               [val for val in list(df['b'])])])

但這給了我這個：

array([[[ 1, 10],
        [ 2, 20]]])

但我想要這個：

[(1,2),(10,20)]

謝謝！

Answer 1

有幾種方法。 相對於常規NumPy陣列，您可能會遇到性能和功能損失。

記錄數組

您可以使用index=False pd.DataFrame.to_records 。 從技術上講，這是一個記錄陣列，但出於許多目的，這就足夠了。

res1 = df.to_records(index=False)

print(res1)

rec.array([(1, 2), (10, 20)], 
          dtype=[('a', '<i8'), ('b', '<i8')])

結構化數組

手動，您可以通過逐行轉換為tuple來構造結構化數組，然后為dtype參數指定元組列表。

s = df.dtypes
res2 = np.array([tuple(x) for x in df.values], dtype=list(zip(s.index, s)))

print(res2)

array([(1, 2), (10, 20)], 
      dtype=[('a', '<i8'), ('b', '<i8')])

有什么不同？

很少。 recarray是的子類ndarray ，常規NumPy的陣列型。 另一方面，第二個例子中的結構化數組是ndarray類型。

type(res1)                    # numpy.recarray
isinstance(res1, np.ndarray)  # True
type(res2)                    # numpy.ndarray

主要區別是記錄數組有助於屬性查找，而結構化數組將產生AttributeError ：

print(res1.a)
array([ 1, 10], dtype=int64)

print(res2.a)
AttributeError: 'numpy.ndarray' object has no attribute 'a'

相關： NumPy“記錄數組”或“結構化數組”或“重新排列”

Answer 2

使用list comprehension將嵌套list轉換為tuple ：

print ([tuple(x) for x in df.values.tolist()])
[(1, 2), (10, 20)]

細節：

print (df.values.tolist())
[[1, 2], [10, 20]]

編輯：你可以轉換為to_records然后轉換為np.asarray ，檢查鏈接：

df = pd.DataFrame(data=[[True, 1,2],[False, 10,20]], columns=['a','b','c'])
print (df)
       a   b   c
0   True   1   2
1  False  10  20

print (np.asarray(df.to_records(index=False)))
[( True,  1,  2) (False, 10, 20)]

Answer 3

這是一個單行：

list(df.apply(lambda x: tuple(x), axis=1))

要么

df.apply(lambda x: tuple(x), axis=1).values

Python：從DataFrame中的兩列創建結構化的numpy結構化數組

問題描述

3 個解決方案

解決方案1
4 2018-07-11 08:23:18

記錄數組

結構化數組

解決方案2
1 2018-07-11 07:51:12

解決方案3
0 2018-07-11 08:07:02

Python：從DataFrame中的兩列創建結構化的numpy結構化數組

問題描述

3 個解決方案

解決方案1 4 2018-07-11 08:23:18

記錄數組

結構化數組

解決方案2 1 2018-07-11 07:51:12

解決方案3 0 2018-07-11 08:07:02

解決方案1
4 2018-07-11 08:23:18

解決方案2
1 2018-07-11 07:51:12

解決方案3
0 2018-07-11 08:07:02