繁体   English   中英

地址标准化[关闭]

[英]Address standardization [closed]

我正在寻找一种方法来识别、解析和标准化地址。 因此,我有一个包含多个信息的字段,例如名字、姓氏、地址、城市、邮政编码……

这个想法是识别每个部分并将信息隔离在一个新领域中。

例如,我将有一个包含名字的列,一个包含姓氏的列,一个包含街道号码的列,一个包含街道名称的列,一个包含城市的列,一个包含邮政编码的列......

问题是这些信息的顺序不同。 我正在考虑使用正则表达式,但似乎很难找到一种一直有效的模式。

我希望能够使用机器学习技术,例如通过创建一种算法来识别每条信息,基于已经干净的数据。 也许有了大量数据,该算法将能够识别名称、城市……

不幸的是,我不知道机器学习算法在这种情况下是如何工作的,但我想学习如何使用它。

谢谢你的帮助。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM