[英]Create a solution to automatically split addresses into their separate components using python
我正在嘗試找到一種解決方案,以便能夠使用 python 將地址自動拆分為單獨的組件。下面是一些示例數據
完整地址 | 街牌號碼 | 街道 | 城市 | State | Zip 代碼 |
---|---|---|---|---|---|
661 Camel Back Road 塔爾薩 俄克拉何馬州 74120 | 661 | 駝背路 | 塔爾薩 | 俄克拉何馬州 | |
68 Gnatty Creek 路羅斯林紐約 11576 | 68 | 納蒂溪路 | 羅斯林 | 紐約 | |
1 浣熊跑西雅圖華盛頓 98119 | 1個 | 浣熊跑 | 西雅圖 | 華盛頓 | |
616 友誼巷聖克拉拉加州 95054 | 616 | 友誼巷 | 聖克拉拉 | 加州 | 95054 |
格蘭大道 3878 號梅特蘭佛羅里達州 32751 | 3878 | 大道 | 梅特蘭 | 佛羅里達 | 32751 |
上面的數據代表了我正在努力實現的目標。 左邊是我輸入的地址,右邊是自動拆分后的結果。 這里的問題,在這個過度簡化的示例中看不到,是輸入地址的順序不同,並且將包括建築物名稱等組件。
到目前為止,我的選擇如下:
REGEX 選項很熟悉,但在很大程度上仍然不准確。 我需要這個解決方案盡可能准確。
機器學習 MODEL 選項更難,因為我不知道有任何 model 或框架能夠將多個類別分類為一次。 誰能幫忙?
到目前為止,我還沒有真正開始 REGEX,因為我預計在捕獲組方面存在重大差距。
我認為做到這一點並獲得相當准確結果的唯一方法是獲取 zip 代碼的列表,例如從這里獲取: https://www.zipcode.com.ng/2022/06/list-of-5- digit-zip-codes-united-states.html?m=1和美國城市列表。
然后您可以將 zip 代碼、state 和城市匹配到列表中。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.