[英]Data matching Algorithm Approach
我真的不知道从哪里开始这个项目,所以我希望有一个广泛的问题至少可以为我指明正确的方向。
我现在有2个数据集,每个数据集约5GB,观测值200万。 它们是在一定时间内为给定区域的房地产清单收集的评估数据和历史数据。 我需要做的是将属性相互匹配。 因此,由于在此期间内出售了2到3次,因此历史上可能会出现某种财产。 在这段历史中,我有卖方信息,贷款信息和销售信息。 在评估人数据中,我具有将描述所售财产的所有特征。 因此,为了执行任何定价模型,我需要将两者匹配。
我在每个变量中都有相似的变量,但是它们将略有不同(拼写错误,缩写等)。 有人对我有什么建议吗? 首先,我要在哪个程序中执行此操作? 我在STATA,R以及SAS和Matlab方面都有经验,但是我更喜欢使用前两者。
我阅读了以下内容:
在他使用.NET的地方,一个用户建议使用Levenshtein方法(计算字符串之间的距离),因此对于诸如Address I的字段,可以使用它并加权两个字符串之间的近似精度。 然后,建议使用Soundex作为卖方/所有者的名称。
但是我真的迷失了如何实现这些目标,在与部门内的任何人接触之前,我真的需要对自己的工作有所了解!
任何帮助或建议将大有帮助。
是的,对于您描述的字符串匹配问题,有几种不错的算法,分别是:
我推荐WW Cohen,P.Ravikumar和S.Fienberg撰写的“ 用于名称匹配任务的字符串距离度量标准比较”一书,概述了什么可能最适合。
SoftTFIDF声称是最好的一种。 它可以作为Java包提供。 字符串匹配和记录链接算法还有其他实现方式,可用于:
库。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.