[英]Deduplication with scoring framework/application/server on Java to work with database input staging
请建议我这样做的Java产品(我更喜欢开源):
请参见示例:
该表中有几个字段:
ID(一些无意义的代理主键)
名字
姓
第二个名字
生日
PASSPORT_SERIES(PASSPORT_SERIES + PASSPORT_NUM是公民的唯一标识符)
PASSPORT_NUM
我必须查看INPUT_PERSONS中的所有记录,并找到重复项和匹配项。 应该创建几个规则:
是否可以找到一些现成的解决方案并将其用作基础?
我过去曾经这样做过,并且是基于festEgi-sunter算法。 看到这个问题: Fellegi-Sunter是否有开源实现?
DUKE项目可以满足您的要求: https : //github.com/larsga/Duke
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.