Python 3 Beautiful Soup用冒号查找标签

Question

我试图抓住这个网站，并获得两个单独的标签。 这就是html的样子。

<url>
  <loc>
    http://link.com
  </loc>
  <lastmod>date</lastmode>
  <changefreq>daily</changefreq>
  <image:image>
   <image:loc>
    https://imagelink.com
   <image:loc>
   <image:title>Item title</image:title>
  <image:image>
</url>

我想要获得的标签是loc和image：title。 我遇到的问题是标题标签中的冒号。 我到目前为止的代码是

r = requests.get(url)
soup = BeautifulSoup(r.content, 'html.parser')

for item in soup.find_all('url'):
    print(item.loc)
    #print image title

我也试过做

print(item.title)

但这不起作用

Answer 1

您应该以“xml”模式解析它（也需要安装lxml ）：

from bs4 import BeautifulSoup

data = """
<url>
  <loc>
    http://link.com
  </loc>
  <lastmod>date</lastmod>
  <changefreq>daily</changefreq>
  <image:image>
   <image:loc>
    https://imagelink.com
   </image:loc>
   <image:title>Item title</image:title>
  </image:image>
</url>"""

soup = BeautifulSoup(data, 'xml')

for item in soup.find_all('url'):
    print(item.title.get_text())

打印Item title 。

请注意，我已经对XML字符串应用了几个修复程序，因为它最初是非格式良好的。

Answer 2

我正在使用BeautifulSoup解析Confluence XHTML，而alecxe的解决方案并不能让我满意，因为我真的需要BeautifulSoup的html模式。

所以我找到了一个使用正则表达式的hacky解决方案：

>>> import re
>>> from bs4 import BeautifulSoup
>>>
>>> data = """
... <url>
...   <loc>
...     http://link.com
...   </loc>
...   <lastmod>date</lastmod>
...   <changefreq>daily</changefreq>
...   <image:image>
...    <image:loc>
...     https://imagelink.com
...    </image:loc>
...    <image:title>Item title</image:title>
...   </image:image>
... </url>"""
>>>
>>> soup = BeautifulSoup(data, 'html.parser')
>>> soup.find_all('image:title')  # nope, bs4 won't allow us to do this
[]
>>> soup.find_all(re.compile('image:title'))  # but this works
[<image:title>Item title</image:title>]

Python 3 Beautiful Soup用冒号查找标签

问题描述

2 个解决方案

解决方案1
1 已采纳 2016-10-08 15:52:38

解决方案2
0 2019-08-29 08:15:20

Python 3 Beautiful Soup用冒号查找标签

问题描述

2 个解决方案

解决方案1 1 已采纳 2016-10-08 15:52:38

解决方案2 0 2019-08-29 08:15:20

解决方案1
1 已采纳 2016-10-08 15:52:38

解决方案2
0 2019-08-29 08:15:20