[英]Address standardization [closed]
我正在寻找一种方法来识别、解析和标准化地址。 因此,我有一个包含多个信息的字段,例如名字、姓氏、地址、城市、邮政编码……
这个想法是识别每个部分并将信息隔离在一个新领域中。
例如,我将有一个包含名字的列,一个包含姓氏的列,一个包含街道号码的列,一个包含街道名称的列,一个包含城市的列,一个包含邮政编码的列......
问题是这些信息的顺序不同。 我正在考虑使用正则表达式,但似乎很难找到一种一直有效的模式。
我希望能够使用机器学习技术,例如通过创建一种算法来识别每条信息,基于已经干净的数据。 也许有了大量数据,该算法将能够识别名称、城市……
不幸的是,我不知道机器学习算法在这种情况下是如何工作的,但我想学习如何使用它。
谢谢你的帮助。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.