[英]How to get all the linked elements (rows) which are repeated in pandas?
我正在尝试获取顾客消费过的所有食物编号。 如果我输入让我们说 customerId = C15,那么它应该返回客户有链接的所有 food_id。 我尝试了一些东西。
import datetime
import random
import pandas as pd
pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)
df = pd.DataFrame({
'food_id':['B1', 'CF', 'C1', 'CF', 'B1', 'IO', 'B1', 'FT', 'BR','CF', 'C1', 'SM', 'IC','B1', 'SM'],
'purch_amt':[150.5, 270.65, 65.26, 110.5, 948.5, 2400.6, 5760, 1983.43, 2480.4, 250.45, 75.29, 3045.6, 500, 500, 250],
'ord_date': ['05-10-2022','09-10-2022','05-10-2022','08-17-2022','10-09-2022','07-27-2022','10-09-2022','10-10-2022','10-10-2022','06-17-2022','07-08-2022','04-25-2022','02-08-2022','08-08-2022','07-09-2022'],
'customer_id':['C31','C31','D35','D31','C35','D31','C35','D31','D35','C31','D35','D35','D35','C35','C38']})
def get_mostly_ordered_food_id():
print('Max food_id ordered')
result = df['food_id'].value_counts().rename_axis('food_id').reset_index(name='counts')
df2 = pd.DataFrame(result)
print(df2.head(3))
def show_data():
result = df.groupby(['customer_id'])
print(result.first())
def test_add_data():
foodID = ['B1', 'CF', 'C1', 'IO', 'FT', 'BR', 'IC', 'SM']
customerID = ['C31','D35','D31','C35','C38']
date = 'Test-Data'
for i in range(0,10):
df.loc[len(df.index)] = [random.choice(customerID), random.choice(foodID), date, 500]
print(df)
get_mostly_ordered_food_id()
如果我提供一个输入,比如一个客户 ID,那么它应该返回所有已消费的食品 ID。 我也不应该重复。
试图获取例如输入“C15”(这是客户 ID)
它应该返回例如“B1,C2”(它们是食物 ID)并且没有重复。 (如果有任何重复,它应该发出警告。)
(注意:可以在这个相关问题中阅读有关此作业的更多上下文。 )
def foods_of_customer(df, customer_id):
foods = df['food_id'].loc[df['customer_id'] == customer_id]
return foods.values
df.loc[]
方法返回所有满足其中条件的行。 food.values 方法将food.values
转换为 NunPy 数组。 之后您可以应用np.unique
以避免重复。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.