Pandas drop_duplicates 未找到所有重复项

Question

我在pandas drop_duplicates中遇到 drop_duplicates 问题。我将大量混合数据从 excel 文件导入到 dataframe，然后执行各种操作来清理数据。 其中一个阶段是根据坐标删除所有重复项。

总的来说，这工作得很好，重要的是它非常快，但我遇到了一些问题，在对数据集进行广泛搜索后，我发现pandas总是有一些重复。

这是我的测试数据集：

             x          y      z  radius  scale    type
0   128.798699  76.038331  0.000   1.172  1.000  Node_B
1   136.373699  78.068331  0.000   1.172  1.000  Node_B
2   133.171699  74.866331  0.000   1.172  1.000  Node_B
3   135.201699  76.038331  0.000   1.172  1.000  Node_B
4   135.201699  82.442331  0.000   1.172  1.000  Node_B
5   136.373699  80.412331  0.000   1.172  1.000  Node_B
6   133.171699  83.614331  0.000   1.172  1.000  Node_B
7   127.626699  78.068331  0.000   1.172  1.000  Node_B
8   131.999699  79.240331  0.000   2.750  1.000  Node_A
9    90.199699  94.795331  0.626   0.325  0.650   Rib_B
10   85.799699  95.445331  0.626   0.325  0.650   Rib_B
11   90.199699  95.445331  0.626   0.325  0.650   Rib_B
12   91.865699  95.557331  0.537   0.438  0.876   Rib_B
13  128.798699  82.442331  0.000   1.172  1.000  Node_B
14  136.373699  80.412331  0.000   1.172  1.000  Node_B
15  158.373699  38.448331  0.000   1.172  1.000  Node_B
16  152.827699  35.246331  0.000   1.172  1.000  Node_B
17  157.201699  36.418331  0.000   1.172  1.000  Node_B
18  155.171699  35.246331  0.000   1.172  1.000  Node_B
19  215.626699  80.412331  0.000   1.172  1.000  Node_B
20  218.827699  83.614331  0.000   1.172  1.000  Node_B
21  216.798699  82.442331  0.000   1.172  1.000  Node_B
22  131.999699  79.240331  0.000   2.750  1.000  Node_A
23  128.798699  76.038331  0.000   1.172  1.000  Node_B
24  136.373699  78.068331  0.000   1.172  1.000  Node_B
25  162.051699  70.180331  0.626   0.325  0.650   Rib_D
26  162.619699  70.496331  0.626   0.325  0.650   Rib_D
27  189.948699  70.180331  0.626   0.325  0.650   Rib_D

我正在根据x,y,z坐标查找重复项，因为这些应该是唯一的位置，所以我使用df.drop_duplicates(subset=['x', 'y', 'z'], inplace=True)删除任何从数据框中复制。 这似乎删除了大约 90% 的重复项，但似乎总是遗漏了一些。

在示例 dataframe 中有多个重复项 [0==23, 1==24, 6==14, 8==22] 但pandas无法删除它们。

我发现这个使用numpy和一个非常慢的迭代循环，将每个点与其他点进行比较。 50 或 100 点是可以的，但当我在 dataframe 中有 100-200K 条记录时，需要 15-20 分钟。

我该如何解决？ drop_duplicates没有精度参数，为什么会遗漏一些？

Answer 1

您可以按照@mozway 的建议使用round ：

PRECISION = 3

df.drop(df[['x', 'y', 'z']].round(PRECISION).duplicated().loc[lambda x: x].index, inplace=True)
print(df)

# Output
             x          y      z  radius  scale    type
0   128.798699  76.038331  0.000   1.172  1.000  Node_B
1   136.373699  78.068331  0.000   1.172  1.000  Node_B
2   133.171699  74.866331  0.000   1.172  1.000  Node_B
3   135.201699  76.038331  0.000   1.172  1.000  Node_B
4   135.201699  82.442331  0.000   1.172  1.000  Node_B
5   136.373699  80.412331  0.000   1.172  1.000  Node_B
6   133.171699  83.614331  0.000   1.172  1.000  Node_B
7   127.626699  78.068331  0.000   1.172  1.000  Node_B
8   131.999699  79.240331  0.000   2.750  1.000  Node_A
9    90.199699  94.795331  0.626   0.325  0.650   Rib_B
10   85.799699  95.445331  0.626   0.325  0.650   Rib_B
11   90.199699  95.445331  0.626   0.325  0.650   Rib_B
12   91.865699  95.557331  0.537   0.438  0.876   Rib_B
13  128.798699  82.442331  0.000   1.172  1.000  Node_B
15  158.373699  38.448331  0.000   1.172  1.000  Node_B
16  152.827699  35.246331  0.000   1.172  1.000  Node_B
17  157.201699  36.418331  0.000   1.172  1.000  Node_B
18  155.171699  35.246331  0.000   1.172  1.000  Node_B
19  215.626699  80.412331  0.000   1.172  1.000  Node_B
20  218.827699  83.614331  0.000   1.172  1.000  Node_B
21  216.798699  82.442331  0.000   1.172  1.000  Node_B
25  162.051699  70.180331  0.626   0.325  0.650   Rib_D
26  162.619699  70.496331  0.626   0.325  0.650   Rib_D
27  189.948699  70.180331  0.626   0.325  0.650   Rib_D

Pandas drop_duplicates 未找到所有重复项

问题描述

1 个解决方案

解决方案1
1 已采纳 2022-03-17 14:55:50

Pandas drop_duplicates 未找到所有重复项

问题描述

1 个解决方案

解决方案1 1 已采纳 2022-03-17 14:55:50

解决方案1
1 已采纳 2022-03-17 14:55:50