如何從特定 HTML 標簽內的相同 html 標簽中獲取一行中的整個文本？

Question

我有一個很長的 HTML 文件，看起來像：

<div><nobr>
<span>ABC</span>
<span>DEF</span>
<span>GHI</span>
</nobr></div>

<div><nobr>
<span>100</span>
</nobr></div>

<div><nobr>
<span>JKL</span>
<span>MNO</span>
<span>PQR</span>
</nobr></div>

<div><nobr>
<span>101</span>
</div></nobr>'

這是我嘗試過的：

soup = BeautifulSoup(html_code, 'lxml')
nobr_tags = soup.select('nobr')

如何使用 BeautifulSoup在一行中的nobr HTML 標簽中獲取span標簽內的整個文本？

我想得到的是：

ABCDEFGHI, 100, JKLMNOPQR, 101, ...

但我得到的是：

ABC, DEF, GHI, 100, JKL, MNO, PQR, 101, ...

一些標簽在標簽內有 2、3 或 4 個 標簽。
無論 nobr 標簽中有多少個 span 標簽，我都希望將標簽內的所有文本放在一行中。

Answer 1

您可以使用生成器表達式來join()帶有,的標簽。

from bs4 import BeautifulSoup

html_doc = """
<div>
   <nobr>
      <span>ABC</span>
      <span>DEF</span>
      <span>GHI</span>
   </nobr>
</div>
<div>
   <nobr>
      <span>100</span>
   </nobr>
</div>
<div>
   <nobr>
      <span>JKL</span>
      <span>MNO</span>
      <span>PQR</span>
   </nobr>
</div>
<div>
   <nobr>
      <span>101</span>
</div>
</nobr>
"""

soup = BeautifulSoup(html_doc, "lxml")

print(
    ", ".join(x.get_text(strip=True) for x in soup.select("nobr"))
)

輸出：

ABCDEFGHI, 100, JKLMNOPQR, 101

如何從特定 HTML 標簽內的相同 html 標簽中獲取一行中的整個文本？

問題描述

1 個解決方案

解決方案1
2 已采納 2021-07-21 18:18:33

如何從特定 HTML 標簽內的相同 html 標簽中獲取一行中的整個文本？

問題描述

1 個解決方案

解決方案1 2 已采納 2021-07-21 18:18:33

解決方案1
2 已采納 2021-07-21 18:18:33