繁体 English 中英

在Java上使用评分框架/应用程序/服务器进行重复数据删除以与数据库输入登台一起使用

[英]Deduplication with scoring framework/application/server on Java to work with database input staging

原文 2012-02-26 09:29:46 0 2 java/ database/ duplicates/ record-linkage

请建议我这样做的Java产品（我更喜欢开源）：

重复数据删除
重复数据删除评分
允许自定义重复数据删除规则和评分规则。

请参见示例：

我有一个名为“ INPUT_DB”的输入登台数据库
我有一个名为“ INPUT_PERSONS”的表
该表中有几个字段：
ID（一些无意义的代理主键）
名字
姓
第二个名字
生日
PASSPORT_SERIES（PASSPORT_SERIES + PASSPORT_NUM是公民的唯一标识符）
PASSPORT_NUM

我必须查看INPUT_PERSONS中的所有记录，并找到重复项和匹配项。 应该创建几个规则：

如果PASSPORT_SERIES + PASSPORT_NUM等于某个记录，则意味着这两个记录是重复的。 这种情况的分数是100，满分100
如果FIRST_NAME和LAST_NAME相等，但PASSPORT_SERIES + PASSPORT_NUM具有一个不同的字符（例如，错印），则这些记录可能是重复的，它们的分数是100分之90。
等等....

是否可以找到一些现成的解决方案并将其用作基础？

2 个解决方案

我过去曾经这样做过，并且是基于festEgi-sunter算法。 看到这个问题： Fellegi-Sunter是否有开源实现？

DUKE项目可以满足您的要求： https : //github.com/larsga/Duke

JAVA套接字服务器应用程序框架

[英]Framework for JAVA socket server application

重复数据删除工作与Reducer中的预期不符

[英]Deduplication work not as expected in reducer

java中重复数字的去重

[英]Deduplication of repeated numbers in java

Java 8的字符串重复数据删除功能

[英]String Deduplication feature of Java 8

使用Java进行云中的重复数据删除

[英]Data Deduplication In Cloud WIth Java

使用Java Set进行重复数据删除

[英]Deduplication using a Java Set

在 Java 中使用 Flatbuffers 进行字符串重复数据删除

[英]String Deduplication with Flatbuffers in Java

Java SE服务器+数据库+休息框架

[英]Java SE server + database + rest framework

一个简单的Java桌面应用程序的数据库服务器

[英]Database server for a simple java desktop application

使用SQL Server数据库进行Java应用程序部署

[英]Java Application Deploying With SQL Server Database

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 JAVA套接字服务器应用程序框架重复数据删除工作与Reducer中的预期不符 java中重复数字的去重 Java 8的字符串重复数据删除功能使用Java进行云中的重复数据删除使用Java Set进行重复数据删除在 Java 中使用 Flatbuffers 进行字符串重复数据删除 Java SE服务器+数据库+休息框架一个简单的Java桌面应用程序的数据库服务器使用SQL Server数据库进行Java应用程序部署

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM