從 MongoDB 但 MongoDB db.collection.find() 刪除重復項返回空結果

Question

如何從 MongoDB 中刪除重復項？ 但是 MongoDB db.collection.find() 看起來根本不起作用。

代碼

start_date = "2020-05-00"
end_date = "2020-07-00"

collection.create_index([('text', 'text')])
df = pd.DataFrame(list(collection.find({"$text": 
                                        {"$search": "ACTIVE - ACT 06"},
                                        "datetime": {
                                            "$gte": start_date+"T00:00:00.000Z",
                                            "$lt": end_date+"T00:00:00.000Z"
                                        }},
                                       {"_id":1, "datetime":1,"name":1})))

樣本重復數據。 我想確保每個日期的名稱都是唯一的（忽略時間）。

{
    "datetime": "2020-05-03 06:43:52",
    "name": "ACTIVE - ACT 06"
},
{
    "datetime": "2020-05-03 06:44:01",
    "name": "ACTIVE - ACT 05"
},
{
    "datetime": "2020-05-03 07:43:52",
    "name": "ACTIVE - ACT 06"
},
{
    "datetime": "2020-05-03 07:44:01",
    "name": "ACTIVE - ACT 05"
},
{
    "datetime": "2020-05-03 08:43:52",
    "name": "ACTIVE - ACT 06"
},
{
    "datetime": "2020-05-03 08:44:01",
    "name": "ACTIVE - ACT 05"
}

拆除后。 僅保存較早的記錄。

{
    "datetime": "2020-05-03 06:43:52",
    "name": "ACTIVE - ACT 06"
},
{
    "datetime": "2020-05-03 06:44:01",
    "name": "ACTIVE - ACT 05"
}

Answer 1

您可以像這樣使用聚合框架：

首先列出重復數據。
然后，將其一一移除。

db.collection.aggregate([
      {
        $group: {
          _id: "$name",
          dups: {
            $push: "$_id"
          },
          count: {
            $sum: 1
          }
        }
      },
      {
        $match: {
          count: {
            $gt: 1
          }
        }
      }
    ]).forEach(function(doc){
      db.collection.remove({
        _id: {
          $in: doc.dups
        }
      });
    })

從 MongoDB 但 MongoDB db.collection.find() 刪除重復項返回空結果

問題描述

1 個解決方案

解決方案1
0 2020-06-14 03:04:22

從 MongoDB 但 MongoDB db.collection.find() 刪除重復項返回空結果

問題描述

1 個解決方案

解決方案1 0 2020-06-14 03:04:22

解決方案1
0 2020-06-14 03:04:22