一列熊猫数据框丢失数据

Question

I am creating a dataframe name "salesdata" and it has a column name "Outlet_Size",this column contains some missing data.This is my code-:我正在创建一个名为“salesdata”的数据框，它有一个名为“Outlet_Size”的列，该列包含一些缺失的数据。这是我的代码-：

#defining a dictionary
cat_dict ={}
#getting all the values of the column
outlet_size_values = salesdata.Outlet_Size.values
unique_outlet_size_val = list(set(outlet_size_values))  
print(unique_outlet_size_val)

the output I am getting is [nan,'High','Medium','Small'] I don't want this missing data(nan) to be the part of my list and I don;t want to create a new list for this.我得到的输出是 [nan,'High','Medium','Small'] 我不希望这个丢失的数据（nan）成为我列表的一部分，我不想创建一个新列表为了这。

Answer 1

使用基本的dropna函数： dropna删除 nan 值，然后使用unique来获得集合等效结果：

salesdata.Outlet_Size.dropna().unique()

Answer 2

pandas has the function unique to get distinct values. pandas具有独特的功能来获取不同的值。 You can use this and filter out NaNs like您可以使用它并过滤掉 NaN 之类的

salesdata.loc[~salesdata.Outlet_Size.isnull(), 'Outlet_Size'].unique()

Answer 3

You can use numpy.unique您可以使用numpy.unique

import pandas as pd
import numpy as np

np.unique(salesdata.Outlet_Size.dropna().values)

一列熊猫数据框丢失数据

问题描述

3 个解决方案

解决方案1
3 已采纳 2017-02-06 02:51:24

解决方案2
2 2017-02-05 23:58:31

解决方案3
0 2017-02-06 08:05:39

一列熊猫数据框丢失数据

问题描述

3 个解决方案

解决方案1 3 已采纳 2017-02-06 02:51:24

解决方案2 2 2017-02-05 23:58:31

解决方案3 0 2017-02-06 08:05:39

解决方案1
3 已采纳 2017-02-06 02:51:24

解决方案2
2 2017-02-05 23:58:31

解决方案3
0 2017-02-06 08:05:39