繁体   English   中英

Beautifulsoup4 Python提取数据

[英]Beautifulsoup4 Python extracting data

我正在尝试从该站点提取地址,并且html如下所示:

<div class="col-xs-12 col-sm-6 col-address">
<div>ul. Małachowskiego 45<br />42-500 Będzin<br />woj. śląskie</div>
</div>

到目前为止,我使用

soup = BeautifulSoup(firma, "lxml")
address = soup.find("div", class_="col-address")
if address:
    address_firmy = (address.text)

我得到: "ul. Małachowskiego 4542-500 Będzinwoj. śląskie"

所以现在有两个问题:

  1. 如何在原来br标签所在的位置放置空格?
  2. 如何将字符串拆分为单独的字段(在csv中):街道,邮政编码,城镇,区域?

这可能很简单,但是我对编程和Python还是完全陌生的。

In [56]: soup.div.get_text(separator=',', strip=True)
Out[56]: 'ul. Małachowskiego 45,42-500 Będzin,woj. śląskie'
  • 您可以使用separator指定用于将文本位连接在一起的字符串

  • 您可以使用strip=True告诉Beautiful Soup从文本的每一位的开头和结尾去除空格

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM