繁体   English   中英

创建一个解决方案,使用 python 将地址自动拆分为单独的组件

[英]Create a solution to automatically split addresses into their separate components using python

我正在尝试找到一种解决方案,以便能够使用 python 将地址自动拆分为单独的组件。下面是一些示例数据

完整地址 街牌号码 街道 城市 State Zip 代码
661 Camel Back Road 塔尔萨 俄克拉何马州 74120 661 驼背路 塔尔萨 俄克拉何马州
68 Gnatty Creek 路罗斯林纽约 11576 68 纳蒂溪路 罗斯林 纽约
1 浣熊跑西雅图华盛顿 98119 1个 浣熊跑 西雅图 华盛顿
616 友谊巷圣克拉拉加州 95054 616 友谊巷 圣克拉拉 加州 95054
格兰大道 3878 号梅特兰佛罗里达州 32751 3878 大道 梅特兰 佛罗里达 32751

上面的数据代表了我正在努力实现的目标。 左边是我输入的地址,右边是自动拆分后的结果。 这里的问题,在这个过度简化的示例中看不到,是输入地址的顺序不同,并且将包括建筑物名称等组件。

到目前为止,我的选择如下:

  1. 正则表达式
  2. 机器学习 MODEL

REGEX 选项很熟悉,但在很大程度上仍然不准确。 我需要这个解决方案尽可能准确。

机器学习 MODEL 选项更难,因为我不知道有任何 model 或框架能够将多个类别分类为一次。 谁能帮忙?

到目前为止,我还没有真正开始 REGEX,因为我预计在捕获组方面存在重大差距。

我认为做到这一点并获得相当准确结果的唯一方法是获取 zip 代码的列表,例如从这里获取: https://www.zipcode.com.ng/2022/06/list-of-5- digit-zip-codes-united-states.html?m=1和美国城市列表。

然后您可以将 zip 代码、state 和城市匹配到列表中。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2023 STACKOOM.COM