[英]Group based on same items in list in dataframe (python)
我根据他们一起旅行的百分比对一起旅行的旅行者进行分组。 这似乎类似于另一个问题( Group Python list of lists into groups based on overlap items )但条件不同。
只有 80% 的旅行是一起旅行的,旅行者才会被归为一组。 如果同一个旅行者在不同的团体中,那也没关系。
数据:(实际数据集很大,有超过 1000 次旅行和旅行者)
Traveller Trips
A [Trip_1, Trip_2, Trip_3, Trip_4, Trip_5]
B [Trip_1, Trip_2, Trip_3, Trip_4]
C [Trip_6, Trip_7]
D [Trip_8]
E [Trip_2, Trip_3, Trip_4, Trip_5]
F [Trip_2, Trip_3, Trip_4, Trip_5]
G [Trip_8]
预期 output:
TravelGroup Traveller
Group_1 A
Group_1 B
Group_2 A
Group_2 E
Group_2 F
Group_3 C
Group_4 D
Group_4 G
注意 A 和 B 在一个组中; A、E 和 F 在一个组中。 但是, B 和 C 不在一个组中,因为它们在所采取的行程中只有 75% 的匹配。
非常感谢这里的任何帮助,非常感谢!
df = pd.DataFrame({'Traveller':[*'ABCDE'], 'Trips': [
['Trip_1', 'Trip_2', 'Trip_3', 'Trip_4', 'Trip_5'],
['Trip_1', 'Trip_2', 'Trip_3', 'Trip_4'],
['Trip_1', 'Trip_2'],
['Trip_1'],
['Trip_2', 'Trip_3', 'Trip_4', 'Trip_5']
] })
from itertools import combinations
all_trips = df.explode('Trips')['Trips'].nunique()
all_travelers = set(df.Traveller)
groups, cnt = {'TravelGroup':[], 'Traveller':[]}, 1
for t1, t2 in combinations(df.Traveller, 2):
s1 = df.loc[df.Traveller==t1, 'Trips'].iloc[0]
s2 = df.loc[df.Traveller==t2, 'Trips'].iloc[0]
if len(set(s1).intersection(s2)) / all_trips >= 0.8:
group_name = 'Group_{}'.format(cnt)
groups['TravelGroup'].extend([group_name, group_name])
groups['Traveller'].extend([t1, t2])
cnt += 1
df = pd.DataFrame(groups)
for t in all_travelers.difference(df.Traveller):
group_name = 'Group_{}'.format(cnt)
df.loc[df.shape[0]] = [group_name, t]
cnt += 1
print(df)
印刷:
TravelGroup Traveller
0 Group_1 A
1 Group_1 B
2 Group_2 A
3 Group_2 E
4 Group_3 D
5 Group_4 C
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.