[英]Subsetting an address as house number, street, city, state in python
我有10億個地址,格式有點像這樣的錯誤:
'12-as FS street, 456 DLGG Area, Rand. District, Sydney, Australia 32 1020203'
我需要像這樣的輸出
Column1:12AS
Column2: FS 456 DLGG Area
Column3: Rand
Column4: Sydney
Column5: Australia
Column6: 32
Column7: 1020203
所以基本上我需要將它們分開為house number, address line, state, country, statecode, pincode
和刪除諸如street, district, countryside, road etc
詞語。
另外,我需要搜索特定閾值以上的最常見單詞。
您只需要編寫一個解析器。 其代碼將取決於數據。 除非有人為您的特定數據格式編寫了解析器。
即時問題列表(不完整):1)逗號是否為所有行的分隔符? 2)是否在值內使用逗號(例如,在街道名稱內)? 3)所有要刪除的單詞的清單(道路,道路,大道等)。4)地址可以采用“房屋名稱”的形式而不是帶有數字的街道嗎?
這是具有一些學習功能的地址解析器的一個隨機示例: https : //github.com/datamade/usaddress
如果您的格式和要求與某些現有解析器不完全匹配,則必須自己編寫。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.