将一列中的值与第二个数据帧中的列中的值进行比较

Question

我有2个dataframes ，每个dataframe都有一个RegionName列。 我想创建一个将具有值“真”的新列，如果RegionName在dataframe A中出现RegionName在dataframe B.

我编写了一个lambda函数，尝试执行此操作但对我的dataframe所有项都返回false（事实并非如此）。 我也试图使用np.where()但无济于事

housing = convert_housing_data_to_quarters()
housing = housing.iloc[:,[34,35,36,37]]
university = get_list_of_university_towns()
housing = housing.reset_index()
housing['University City'] = housing.apply(lambda x: x['RegionName'] in university['RegionName'], axis=1)

这是我尝试使用np.where()

housing['University City'] = np.where(housing['RegionName'] == university['RegionName'](axis=1),'true','false')

Answer 1

熊猫系列具有类似字典的属性。 考虑以下：

s = pd.Series(['a', 'b', 'c', 'd'], index=[10, 11, 12, 13])

'a' in s  # False
10 in s   # True

所以你实际上是检查系列索引中的存在而不是系列值。 另外， apply + lambda是一个低效的Python级循环。

使用Pandas，您应该查看向量化操作，例如通过pd.Series.isin ，它隐式使用值。 此外，首先让您的比较系列独一无二：

unique_vals = university['RegionName'].unique()
housing['University City'] = housing['RegionName'].isin(unique_vals)

这会创建一个布尔系列。 如果0 / 1是一个要求，你就可以转换为int ：

housing['University City'] = housing['University City'].astype(int)

Answer 2

使用isin进行比较，通过布尔掩码的另一个DataFrame的列的多个值进行比较：

mask = housing['RegionName'].isin(university['RegionName'])
housing['University City'] = mask
#if need True, False to 1,0 mapping
#housing['University City'] = mask.astype(int)

另一个解决方案是使用numpy.where如果想通过mask创建新值，那么更好的是：

housing['University City'] = np.where(mask, 'match', 'no match')

Answer 3

请尝试同伴代码，我作为教程为你做;）

import pandas as pd
import numpy as np

region_names = ["region_a", "region_b", "region_c", "region_d", "region_e", 
"region_f", "region_g", "region_h"]

# Generate 100 random university names
univ_names = ["univ-%s"%i for i in range(100)]

# Select 100 random university regions from region_names
univ_regions = [region_name[np.random.randint(low=0, high=len(region_names))] for i     
in range(len(univ_names))]

# make a universities DataFrame >> DataFrame1
universities = pd.DataFrame(data=list(zip(univ_names, univ_regions)), columns=    
["univ_name", "univ_region"])

# Now, you select the half number of regions, to make comparaison >> DataFrame2
regions =pd.DataFrame(data=[region_names[np.random.randint(low=0,     
high=len(region_names))] for i in range(len(region_names) // 2)], columns= 
["region_name"])

# get unique list of region name from DataFrame2
unique_regions = regions["region_name"].unique()

# Create the third column in DataFrame1 >> bool column
universities["isin_unique_regions"] = universities.univ_region.isin(unique_regions)
universities.head()

将一列中的值与第二个数据帧中的列中的值进行比较

问题描述

3 个解决方案

解决方案1
3 已采纳 2018-12-14 11:09:47

解决方案2
2 2018-12-14 11:06:02

解决方案3
0 2018-12-14 12:34:28

将一列中的值与第二个数据帧中的列中的值进行比较

问题描述

3 个解决方案

解决方案1 3 已采纳 2018-12-14 11:09:47

解决方案2 2 2018-12-14 11:06:02

解决方案3 0 2018-12-14 12:34:28

解决方案1
3 已采纳 2018-12-14 11:09:47

解决方案2
2 2018-12-14 11:06:02

解决方案3
0 2018-12-14 12:34:28