繁体   English   中英

将数据框行(熊猫)与单独的数据框行匹配,如果第一列匹配则执行计算

[英]Matching a data frame row (pandas) to a separate data frame row and performing a calculation if the first column matches

新手 python/coder 试图使数据记录器的下载和计算过程更顺畅,作为一个副项目。 无论如何,我有两个数据框。 第一个是“数据”,其中包含以下内容(为简单起见缩短了行数):

    Logger Name    Date and Time  Battery   Temp(C)  Sensor Reading(dg)  Sensor Temp(C)  Array #
0   TDX  10/1/2021 13:35                2.93             15.59            8772.737            14.5      833
1   TDX  10/1/2021 13:36                2.93             15.59            8773.426            14.5      834
2   TDX  10/1/2021 13:36                2.93             15.59            8773.570            14.5      835
3   TDX  10/1/2021 13:37                2.93             15.59            8773.793            14.5      836

第二个是“param”,它的参数包含我用来进行计算的值:

Transducer_ID  elevation_tom  elevation_toc  elevation_ground  elevation_tos calculation  gage_factor  xd_zero_reading  thermal_factor  xd_temp_at_zero_reading  piezo_elev  piezo_downhole_depth
0   TDX            NaN            NaN              1000            NaN      linear     -0.04135             9138        0.003119                     24.8        1600                   400
1  Test            NaN            NaN              1000            NaN      linear     -0.18320             8997       -0.170100                     22.6         800                   200

现在我希望代码能够做的是在“数据”中创建一个名为“线性 P”的新列,该列基于使用来自两个数据帧的变量的计算进行填充:[digits_zero_digits - Sensor Reading(dg)] * abs(量具系数)。 现在,如果“param”只有一个传感器 ID 和与“data”相同的行数,这不是问题,但实际上它有很多具有不同 ID 的行。

所以我的问题是这样的。 实现我的目标的最佳方法是什么? 是在列上循环还是使用 pandas 库更有效?

提前致谢!

编辑:我要找的output就是这个

    Logger Name    Date and Time  Battery Voltage(v)  Internal Temp(C)  Sensor Reading(dg)  Sensor Temp(C)  Array #   Linear P
0   TDX  10/1/2021 13:35                2.93             15.59            8772.737            14.5      833  15.103625
1   TDX  10/1/2021 13:36                2.93             15.59            8773.426            14.5      834  15.075135
2   TDX  10/1/2021 13:36                2.93             15.59            8773.570            14.5      835  15.069181
3   TDX  10/1/2021 13:37                2.93             15.59            8773.793            14.5      836  15.059959

更有效的方法是根据我的经验:

  1. 使用( https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.join.html )加入两个数据框。
  2. 计算结果 dataframe ( df["Linear P"] = df["Sensor Reading(dg)"] *... ).

这是我的过程的一个例子:

import pandas as pd

df1 = pd.DataFrame({'Names': ['a', 'a'],
                   'var1': [35, 15,],
                   'var2': [15, 40]})

df2 = pd.DataFrame({'Names1': ['a', 'E'],
                   'var3': [35, 15,],
                   'var4': [15, 40]})
final_df = df1.merge(df2, left_on='Names', right_on='Names1', how='left' )
final_df["Linear P"] = final_df["var3"] * final_df["var2"] - abs(final_df["var2"])
print(final_df)

只是想出了一种看起来非常有效的方法。 我只是删除了不需要的“param”中的数据:

z = data.iloc[0,0]
param = param[param.Transducer_ID == z]

过滤数据后,我只从参数中提取所需的值:

x = piezo_param.iloc[0, 7]
y = piezo_param.iloc[0, 6]

并执行计算:

data['Linear P'] = (x - data['Sensor Reading(dg)']) * abs(y)

让我知道这是否是完成工作的最佳方式!

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM