我有 152431 X 15 形状的数据框,我想要两帧的差异


# df1:
Date       Fruit  Num  Color 
2013-11-24 Banana 22.1 Yellow
2013-11-24 Orange  8.6 Orange
2013-11-24 Apple   7.6 Green
2013-11-24 Celery 10.2 Green

# df2:
Date       Fruit  Num  Color 
2013-11-24 Banana 22.1 Yellow
2013-11-24 Orange  8.6 Orange
2013-11-24 Apple   7.6 Green
2013-11-24 Celery 10.2 Green
2013-11-25 Apple  22.1 Red
2013-11-25 Orange  8.6 Orange

#1楼 票数:0

如果您的数据帧存储在两个文件中,我会在循环中读取每个文件的每一行并创建一个包含差异的列表:

old_file_path = 'INSERT_FILE_PATH_OF_FILE_A'
new_file_path = 'INSER_FILE_PATH_OF_FILE_B'

with open(old_file_path, 'r', encoding='utf-8') as old ,open(new_file_path, 'r', encoding='utf-8') as new:
    fileone = old.readlines()
    filetwo = new.readlines()

total_of_changes=[]
for line in filetwo:
    if line not in fileone:
        total_of_changes.append(line)

  ask by Shubham Giri translate from so

未解决问题?本站智能推荐:

1回复

如何计算数据帧列中由分隔符分隔的子字符串并将值推送到新列中?

所以,我有一个这样的数据框 “CC”列包含以“;”分隔的电子邮件列表。 我想遍历“CC”列,计算以“;”分隔的电子邮件数量在每一行中并添加一个新列,让我们在 CC 之后说“CC_count”,其中包含每行的 CC 电子邮件数量。 我该怎么做呢?
1回复

填充熊猫数据框中的缺失值

我有一个包含两列的 Pandas 数据框:locationid、geo_loc。 locationid 列有缺失值。 我想获取丢失的 locationid 行的 geo_loc 值,然后在 geo_loc 列中搜索此 geo_loc 值并获取位置 id。 我需要这样的最终输出: locati
1回复

合并两个数据帧以减少内存消耗

我试图在我的数据帧列中分解一个列表并将其合并回 df,但是在将展平列与初始数据帧合并时出现内存错误。 我想知道我是否可以将它合并成块,这样我就可以克服内存问题。 我将不胜感激。
1回复

熊猫根据最近的坐标合并两个数据帧

我有两个数据框,它们由x 、 y 、 val列组成,其中( x和y是数据点的笛卡尔坐标)例如。 它们可以有不同的长度我想根据最近的对应数据点合并这些,给我一些类似的东西 我试过的我已将数据scipy.spatial.KDTree转换为坐标列表和值列表,然后使用scipy.spatial.KDTree
1回复

Pandas-连接两个数据帧,但如果一个数据帧中缺少一列,则用NaN填充该列

我有两个数据框(df1 和 df2)。 它们有相似的列,但其中一个可能缺少一两列,因为它们来自抓取一个并不总是返回相同信息的网站。 让我们说: df1 指数 A栏 B栏 C栏 0 1 3 5
1回复

有没有比pandas.testing.assert_frame_equal更好的pandas函数来测试两个数据帧?

有没有比pandas.testing.assert_frame_equal更好的pandas函数,因为我在比较时面临两个问题 如果数据集是这样的 df1=pd.DataFrame({'a':['abc','pqr','ss','sd','sds'], 'b':['sdd','gbc','mqr',
2回复

根据分组数据帧中组的前两个值获取数据帧

我的数据框df是: 我想得到子数据框,显示 2010 年选举前 2 名的每个政党在考虑每个地区的所有过去选举中获得的最低票数。 所以所需的输出是: 首先,我试图根据 2010 年的总票数获得前两个政党。但它每年都会给前两个政党。 如何解决这个问题以获得 2010 年的前 2 个政党,然后检查所有年份
4回复

在两个不同的熊猫数据帧之间搜索和替换值

我使用两个不同的熊猫数据框: 数据框1: 和数据框2: 我正在尝试做的事情: 从dataframe2其等效ANSI1代码dataframe1在“状态”栏中将所有值。 所以基本上,我希望得到这样的结果: 等等。 出于某种原因,到目前为止我没有尝试过任何工作。 我试过的: 单行 for 循环[data