繁体   English   中英

Python DataFrames:查找“几乎”相同的行

Python DataFrames: finding *almost" identical rows

提示:本站收集StackOverFlow近2千万问答,支持中英文搜索,鼠标放在语句上弹窗显示对应的参考中文或英文, 本站还提供   中文繁体   英文版本   中英对照 版本,有任何建议请联系yoyou2525@163.com。

我有一个装满订单的DF。 其中一些包含负数量,其原因是它们实际上是先前订单的取消。

问题,没有唯一的键可以帮助我找出哪个订单对应哪个取消。

因此,我构建了以下代码(“取消”是原始数据的子集,只包含与...相对应的行)

for i, item in cancelations.iterrows(): 
    #find a row similar to the cancelation we are currently studying:        
    #We use item[1] to access second value of the tuple given back by iterrows()
    mask1 = (copy['CustomerID'] == item['CustomerID']) 
    mask2 = (copy['Quantity'] == item['Quantity'])
    mask3 = (copy['Description'] == item['Description'])   
    subset = copy[ mask1 & mask2 & mask3]
    if subset.shape[0] >0: #if we find one or several corresponding orders :
            print('possible corresponding orders:', subset.index.tolist())
            copy = copy.drop(subset.index.tolist()[0]) #retrieve only the first ot them from the copy of the data

因此,这可行,但是:首先,它永远需要运行; 其次,我在某处读到,每当您发现自己编写复杂的代码来操作数据框时,就已经有了一种方法。 那么也许你们当中有人知道可以帮助我的事情吗?

感谢您的时间 !

编辑:请注意,有时候,我们有几个订单可能与即将发生的取消相对应。 这就是为什么我不只在指定的某些列中使用drop_duplicates的原因……因为它消除了所有重复项(或除一个以外的所有重复项):我只需要删除其中之一。

问题暂未有回复.您可以查看右边的相关问题.
2 将几乎相同的行合并为1

我有一个棘手的问题,我不介意提供一些帮助,我在这里和其他地方使用的查询已经取得了一些进展,但是现在正变得很困难。 我有一个邮件列表,其中包含许多重复项,我试图将这些重复项合并为一个有意义的行,以获取此类数据。 并沿着 我有超过1.27亿条记录,大多数重复以类似的方式进行记录 ...

4 合并几乎相同的数据行

我有大量的数据(英国和美国邮政地址)超过100,000,其中在几乎相同的行中包含重复或ALMOST相同的数据行(具有5列),这五列中的四列具有完全匹配的数据,例如: AAAA BBBB CCCCCC CCCCCCCC CCCCCCCC 11.111 22.222 AAAA BBBB CCCCCC C ...

5 SQL删除几乎相同的行

我有一个具有5列的表,而不是更新,我已经完成了所有行的插入(愚蠢的错误)。 如何摆脱重复的记录。 除id外,它们是相同的。 我无法删除所有记录,但是我想删除其中一半。 例如 表: 这个怎么做? 我正在使用Microsoft Sql Server。 ...

6 从 3 个不同的 Pandas 数据帧中查找相同的行,其中行的顺序不同

我有三个不同的熊猫数据框。 一个数据帧中的行顺序与其他数据帧的行顺序无关。 我想找到一个带有行的数据帧,其中每一行都将存在于某个索引处的三个原始数据帧中(不同数据帧之间可能不同)。 让我们看一个例子: 如果我们打印这些数据帧,我们会得到 请注意,具有值(tom, 10)和(mike, 15 ...

7 排除2个数据框R的相同行

我有2个数据框,其中包含有关df1 =儿子,df =女儿的推文。 在分析时,我偶然发现,有些行必须相同。 在一起<-unique(rbind(df1,df2))表明确实存在587行相同(通过从df1 + df2中减去)。如何识别它们? 或者,甚至更重要:将它们从两个数据帧中排除? ...

8 在2个数据框中查找公共行

我在网上搜索了一下,找不到解决我问题的方法。 我有两个(不同长度)数据框: dataSC_SC_combos 和 dataSC_FSITE_combos 我想从中找到数据和站点的独特组合。 然后从较大的数据集中为SURVEY_DATE和FISHING_S ...

2014-02-19 23:51:18 2 182   r
9 在雄辩模型中查找相同的行

我正在尝试查找具有相同数据的行。 我不太了解sql的工作原理,但是我知道结果应该是什么样的: 解释; 我有一个上面已经简化的模型(USER__IP)。 许多用户可能共享相同的IP,我想知道谁。 我在上面的括号中发表了一些评论,这些评论说明了我希望在何处进行。 我希望它是可以理解 ...

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2022 STACKOOM.COM