繁体   English   中英

数据集成问题-如何集成相似实体

[英]Data integration problem - How to integrate similar entities

我有一个数据库,在同一张表中有非常相似的行。 这些行相似,因为它们的列值几乎相等。 我需要将那些相应的行集成为一行。

例如,应该集成这两个用户(u1和u2):

 u1 = User(name = "William Henry Gates III",
           age = 55,
           nationality = "american",
           alma_mater = "Harvard Univesity")

 u2 = User(name: "William Henry 'Bill' Gates III",
           age: 55,
           nationality: "America",
           alma_mater: "Harvard U.")

我正在考虑使用一些编辑距离词根提取技术。 其他算法和技术建议? 有什么有用的库可供使用(最好是Python或Java)?

被认为像精炼

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM