在 postgresql 中模糊匹配重复项并将重复项移动到新表

Question

我有一个 User 表，其中包含以下字段id, first_name, last_name, street_address, city, state, zip-code, firm, user_identifier, created_at, update_at 。 这张表有很多重复。

我想通过first_name, last_name and street_address模糊匹配它们。

这是我所做的

我创建了一个包含以下字段的新表

CREATE TABLE dupes(
   id  bigint NOT NULL,
   first_name    TEXT,
   last_name      TEXT,
   street_address        CHAR(50),
   searched_name TEXT,
   searched_user_id bigint
);

接下来我有这个 func 它应该遍历字段并插入到新表（ dupes ）中，其中相似度高于 ```.75

DO 
$$
DECLARE 
    rec record;
    full_name varchar;
BEGIN
    FOR rec IN 
    SELECT id, first_name ||' '||last_name ||' '||street_address full_name 
    FROM users

    LOOP
        INSERT INTO dupes(id,first_name,last_name, street_address,searched_name, searched_user_id)
        SELECT id,first_name,last_name, street_address,rec.full_name,rec.id 
        FROM users
        WHERE similarity(first_name ||' '||last_name||' '||street_address, rec.full_name) > .75
        and  id<>rec.id;
    END LOOP;
END
$$;

不幸的是，我得到了更多返回的每一行的副本。

我对此很陌生。 任何人都可以帮忙吗？

谢谢

Answer 1

这应该不需要过程编程。 （根据设置进行设置甚至可以使您免于重复太多……;-)）

作为一个开始：

WITH
Matching (id, first_name, last_name, street_address, searched_name, searched_user_id) AS (
  SELECT DISTINCT
    l.id
    , l.first_name
    , l.last_name
    , l.street_address
    , r.first_name || ' ' || r.last_name
    , r.id
  FROM Users l
  JOIN Users r
    ON SIMILARITY(l.first_name || ' ' || l.last_name || ' ' || l.street_address,
                  r.first_name || ' ' || r.last_name || ' ' || r.street_address) > .50
       AND l.id < r.id
)
-- SELECT * FROM Matching
INSERT INTO Dupes (id, first_name, last_name, street_address, searched_name, searched_user_id)
  (SELECT id, first_name, last_name, street_address, searched_name, searched_user_id FROM Matching)
;

（为了说明三个记录之间的匹配没有太多的字母推送，阈值已调整......）

查看实际操作： SQL Fiddle

请评论，如果这需要调整/进一步的细节。

在 postgresql 中模糊匹配重复项并将重复项移动到新表

问题描述

1 个解决方案

解决方案1
1 已采纳 2019-12-23 22:23:40

在 postgresql 中模糊匹配重复项并将重复项移动到新表

问题描述

1 个解决方案

解决方案1 1 已采纳 2019-12-23 22:23:40

解决方案1
1 已采纳 2019-12-23 22:23:40