beautifulsoup-在br标签的任一侧获取文本

Question

不幸的是，我陷入了以下问题：

 <a href="someurl"> 
"TEXT ONE"
 <br>
 "TEXT TWO"
 </a>

我需要分别输入文本一和文本二。 我只能通过使用"text = container.a.text"来提供"TEXT ONE TEXT TWO"作为一个整体来获得它们，容器是a标签的父级。 我尝试了许多无法成功的方法。 我无法正确使用br标签。
感谢您的任何帮助。

Answer 1

我将避免依赖于br元素的存在，而是将所有文本节点放在a ：

In [1]: from bs4 import BeautifulSoup

In [2]: html = """ <a href="someurl"> 
    ...: "TEXT ONE"
    ...:  <br>
    ...:  "TEXT TWO"
    ...:  </a>"""

In [3]: soup = BeautifulSoup(html, "html.parser")

In [4]: [item.strip() for item in soup.a(text=True)]
Out[4]: ['"TEXT ONE"', '"TEXT TWO"']

请注意， a(text=True)是a.find_all(text=True)的简短版本。

当然，您可以根据需要将其解压缩为单独的变量 ：

In [5]: text_one, text_two = [item.strip() for item in soup.a(text=True)]

In [6]: text_one
Out[6]: '"TEXT ONE"'

In [7]: text_two
Out[7]: '"TEXT TWO"'

Answer 2

找到br标签后，可以使用.previousSibiling和.nextSibling属性：

>>> container.a.find("br").previousSibling
' \n"TEXT ONE"\n '
>>> container.a.find("br").nextSibling
'\n "TEXT TWO"\n '

Answer 3

您可以通过几种方式进行相同操作。 这是另一种方式：

from bs4 import BeautifulSoup

content='''
 <a href="someurl"> 
"TEXT ONE"
 <br>
 "TEXT TWO"
 </a>
'''
soup = BeautifulSoup(content,'lxml')
for items in soup.select('a'):
    elem = [' '.join(item.split()) for item in items.strings]
    print(elem)

输出：

['"TEXT ONE"', '"TEXT TWO"']

beautifulsoup-在br标签的任一侧获取文本

问题描述

3 个解决方案

解决方案1
1 2017-12-16 17:02:38

解决方案2
0 已采纳 2017-12-16 16:54:19

解决方案3
0 2017-12-16 19:22:55

beautifulsoup-在br标签的任一侧获取文本

问题描述

3 个解决方案

解决方案1 1 2017-12-16 17:02:38

解决方案2 0 已采纳 2017-12-16 16:54:19

解决方案3 0 2017-12-16 19:22:55

解决方案1
1 2017-12-16 17:02:38

解决方案2
0 已采纳 2017-12-16 16:54:19

解决方案3
0 2017-12-16 19:22:55