如何根据熊猫中的某些条件将df1中的一行与df2中的其他行进行比较？

Question

I have two files(some rows could be same and some could be different) which have data like this- 我有两个文件（有些行可能相同，有些行可能不同），它们的数据如下：

PID,          STARTED,%CPU,%MEM,COMMAND
1,Wed Sep 12 10:10:21 2018, 0.0, 0.0,init
2,Wed Sep 12 10:10:21 2018, 0.0, 0.0,kthreadd

Now, I want to perform following operations on these dataframes- 现在，我要对这些数据框执行以下操作-

select one row(say R1) from df1 从df1中选择一行（例如R1）
iterate all the rows from df2 and check for mathces with R1. 迭代df2中的所有行，并使用R1检查数学。
if it found matches then store it in a seperate dataframe, if it doesn't match ignore it. 如果找到匹配项，则将其存储在单独的数据帧中；如果不匹配，则将其忽略。

Since file has 10000 rows. 由于文件有10000行。 so I am implementing it via python pandas but not getting the proper way. 所以我正在通过python pandas实现它，但是没有正确的方法。 Any help would be appreciable. 任何帮助将是可观的。

Answer 1

Raw data 原始数据

First dataframe: 第一个数据框：

df = pd.DataFrame({
    'Started': [*np.repeat(pd.Timestamp(2018, 9, 12, 12, 12, 21), 2)],
    '%CPI': [0.0, 0.0],
    '%MEM': [0.0, 0.0],
    'COMMAND': ['init', 'kthreadd']
})

Output: 输出：

    Started %CPI    %MEM    COMMAND
0   2018-09-12 12:12:21 0.0 0.0 init
1   2018-09-12 12:12:21 0.0 0.0 kthreadd

Second dataframe: 第二个数据框：

df2 = pd.DataFrame({
    'Started': [pd.Timestamp(2018, 9, 12, 12, 12, 21), pd.Timestamp(2020, 9, 12, 12, 12, 21)],
    '%CPI': [0.0, 1.0],
    '%MEM': [0.0, 1.0],
    'COMMAND': ['init', 'different']
})

Output (row 0 the same, row 1 different): 输出（行0相同，行1不同）：

    Started %CPI    %MEM    COMMAND
0   2018-09-12 12:12:21 0.0 0.0 init
1   2020-09-12 12:12:21 1.0 1.0 different

Answer 回答

Create new dataframe with only matching rows: 创建仅包含匹配行的新数据框：

columns = df.columns.tolist()

matches = pd.merge(df, df2, left_on=columns, right_on=columns)

Output: 输出：

    Started %CPI    %MEM    COMMAND
0   2018-09-12 12:12:21 0.0 0.0 init

如何根据熊猫中的某些条件将df1中的一行与df2中的其他行进行比较？

问题描述

1 个解决方案

解决方案1
2 2019-03-11 11:54:39

如何根据熊猫中的某些条件将df1中的一行与df2中的其他行进行比较？

问题描述

1 个解决方案

解决方案1 2 2019-03-11 11:54:39

解决方案1
2 2019-03-11 11:54:39