![](/img/trans.png)
[英]Extracting data from an inconsistent HTML page using BeautifulSoup4 and Python
[英]Beautifulsoup4 Python extracting data
我正在尝试从该站点提取地址,并且html如下所示:
<div class="col-xs-12 col-sm-6 col-address">
<div>ul. Małachowskiego 45<br />42-500 Będzin<br />woj. śląskie</div>
</div>
到目前为止,我使用
soup = BeautifulSoup(firma, "lxml")
address = soup.find("div", class_="col-address")
if address:
address_firmy = (address.text)
我得到: "ul. Małachowskiego 4542-500 Będzinwoj. śląskie"
所以现在有两个问题:
这可能很简单,但是我对编程和Python还是完全陌生的。
In [56]: soup.div.get_text(separator=',', strip=True)
Out[56]: 'ul. Małachowskiego 45,42-500 Będzin,woj. śląskie'
您可以使用separator
指定用于将文本位连接在一起的字符串
您可以使用strip=True
告诉Beautiful Soup从文本的每一位的开头和结尾去除空格
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.