繁体   English   中英

在Java上使用评分框架/应用程序/服务器进行重复数据删除以与数据库输入登台一起使用

[英]Deduplication with scoring framework/application/server on Java to work with database input staging

请建议我这样做的Java产品(我更喜欢开源):

  1. 重复数据删除
  2. 重复数据删除评分
  3. 允许自定义重复数据删除规则和评分规则。

请参见示例:

  1. 我有一个名为“ INPUT_DB”的输入登台数据库
  2. 我有一个名为“ INPUT_PERSONS”的表
  3. 该表中有几个字段:

    ID(一些无意义的代理主键)
    名字

    第二个名字
    生日
    PASSPORT_SERIES(PASSPORT_SERIES + PASSPORT_NUM是公民的唯一标识符)
    PASSPORT_NUM

我必须查看INPUT_PERSONS中的所有记录,并找到重复项和匹配项。 应该创建几个规则:

  1. 如果PASSPORT_SERIES + PASSPORT_NUM等于某个记录,则意味着这两个记录是重复的。 这种情况的分数是100,满分100
  2. 如果FIRST_NAME和LAST_NAME相等,但PASSPORT_SERIES + PASSPORT_NUM具有一个不同的字符(例如,错印),则这些记录可能是重复的,它们的分数是100分之90。
  3. 等等....

是否可以找到一些现成的解决方案并将其用作基础?

我过去曾经这样做过,并且是基于festEgi-sunter算法。 看到这个问题: Fellegi-Sunter是否有开源实现?

DUKE项目可以满足您的要求: https : //github.com/larsga/Duke

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM