從排序的數據框中提取列值的有效方法

Question

假設我有一個數據框（按column1排序）df：

column1   column2
1           'Yes'
1           'No'
2           'Yes'
3           'Yes'
3           'Yes'
3           'Yes'

對於列1中的每個值，我想知道列2中的可能值，並將這些鍵值對存儲在結構中。

例如，鑒於上述df，我想要一個像

{1: ['yes','No']; 2: ['Yes'], 3:['Yes']}

我做了類似的事情

for key in df[column1].unique.tolist():
   values = df.loc[df[column1] == key]][column2].unique().tolist()
   dict.add((key, values))

但是，由於我的原始df很大，因此此方法花費的時間太長。 由於df按column1排序，所以我想知道是否有更有效的方法來實現此目的。

謝謝！

Answer 1

與刪除冗余數據duplicates ，然后groupby一列，取唯一的值，並保存到字典：

final_dict = df.drop_duplicates().groupby('column1')['column2'].unique().to_dict()

Answer 2

我將看一下df.to_dict（）方法。

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_dict.html

您應該能夠得到想要的東西。 文檔站點上的示例如下：

>>> df = pd.DataFrame({'col1': [1, 2],
...                    'col2': [0.5, 0.75]},
...                   index=['row1', 'row2'])
>>> df
      col1  col2
row1     1  0.50
row2     2  0.75
df.to_dict()
{'col1': {'row1': 1, 'row2': 2}, 'col2': {'row1': 0.5, 'row2': 0.75}}

自從我發布以來，您似乎已更新，請通過“列表”進行檢查。

'list'：類似{column-> [values]}的字典

Answer 3

首先刪除重復項，然后將其應用於to_dict（）

df.drop_duplicates(subset=['col1','col2'],inplace=True)
df.to_dict()

從排序的數據框中提取列值的有效方法

問題描述

3 個解決方案

解決方案1
3 已采納 2019-06-20 18:39:14

解決方案2
1 2019-06-20 18:36:46

解決方案3
1 2019-06-20 18:38:12

從排序的數據框中提取列值的有效方法

問題描述

3 個解決方案

解決方案1 3 已采納 2019-06-20 18:39:14

解決方案2 1 2019-06-20 18:36:46

解決方案3 1 2019-06-20 18:38:12

解決方案1
3 已采納 2019-06-20 18:39:14

解決方案2
1 2019-06-20 18:36:46

解決方案3
1 2019-06-20 18:38:12