簡體   English   中英

在python中將地址替換為門牌號,街道,城市,州

[英]Subsetting an address as house number, street, city, state in python

我有10億個地址,格式有點像這樣的錯誤:

'12-as FS street, 456 DLGG Area, Rand. District, Sydney, Australia 32 1020203'

我需要像這樣的輸出

Column1:12AS
Column2: FS 456 DLGG Area
Column3: Rand
Column4: Sydney
Column5: Australia
Column6: 32
Column7: 1020203

所以基本上我需要將它們分開為house number, address line, state, country, statecode, pincode和刪除諸如street, district, countryside, road etc詞語。

另外,我需要搜索特定閾值以上的最常見單詞。

您只需要編寫一個解析器。 其代碼將取決於數據。 除非有人為您的特定數據格式編寫了解析器。

即時問題列表(不完整):1)逗號是否為所有行的分隔符? 2)是否在值內使用逗號(例如,在街道名稱內)? 3)所有要刪除的單詞的清單(道路,道路,大道等)。4)地址可以采用“房屋名稱”的形式而不是帶有數字的街道嗎?

這是具有一些學習功能的地址解析器的一個隨機示例: https : //github.com/datamade/usaddress

如果您的格式和要求與某些現有解析器不完全匹配,則必須自己編寫。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM