[英]Create a solution to automatically split addresses into their separate components using python
我正在尝试找到一种解决方案,以便能够使用 python 将地址自动拆分为单独的组件。下面是一些示例数据
完整地址 | 街牌号码 | 街道 | 城市 | State | Zip 代码 |
---|---|---|---|---|---|
661 Camel Back Road 塔尔萨 俄克拉何马州 74120 | 661 | 驼背路 | 塔尔萨 | 俄克拉何马州 | |
68 Gnatty Creek 路罗斯林纽约 11576 | 68 | 纳蒂溪路 | 罗斯林 | 纽约 | |
1 浣熊跑西雅图华盛顿 98119 | 1个 | 浣熊跑 | 西雅图 | 华盛顿 | |
616 友谊巷圣克拉拉加州 95054 | 616 | 友谊巷 | 圣克拉拉 | 加州 | 95054 |
格兰大道 3878 号梅特兰佛罗里达州 32751 | 3878 | 大道 | 梅特兰 | 佛罗里达 | 32751 |
上面的数据代表了我正在努力实现的目标。 左边是我输入的地址,右边是自动拆分后的结果。 这里的问题,在这个过度简化的示例中看不到,是输入地址的顺序不同,并且将包括建筑物名称等组件。
到目前为止,我的选择如下:
REGEX 选项很熟悉,但在很大程度上仍然不准确。 我需要这个解决方案尽可能准确。
机器学习 MODEL 选项更难,因为我不知道有任何 model 或框架能够将多个类别分类为一次。 谁能帮忙?
到目前为止,我还没有真正开始 REGEX,因为我预计在捕获组方面存在重大差距。
我认为做到这一点并获得相当准确结果的唯一方法是获取 zip 代码的列表,例如从这里获取: https://www.zipcode.com.ng/2022/06/list-of-5- digit-zip-codes-united-states.html?m=1和美国城市列表。
然后您可以将 zip 代码、state 和城市匹配到列表中。
问题未解决?试试以下方法:
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.