如何使用美麗的湯訪問 HTML 文件中的下一個元素

Question

<ns1:AffectedAreas>
      <ns1:Area>
        <ns1:AreaId>10YDK-1--------W</ns1:AreaId>
        <ns1:AreaName>DK1</ns1:AreaName>
      </ns1:Area>
</ns1:AffectedAreas>

我一直在努力通過使用B = soup.find('ns1:area')然后B.next_element通過ns1:AffectedAreas訪問ns1:AreaId這是(10YDK-1--------W) B.next_element但我得到的只是一個空字符串。

Answer 1

您可以嘗試遍歷soup.find('ns1:area')子項以查找ns1:areaid標記，然后獲取他的文本。

for i in soup.find('ns1:area').children:
    if i.name == "ns1:areaid":
        b = i.text
print(b)

從ns1:AffectedAreas看起來像

for i in soup.find_all('ns1:AffectedAreas'.lower()):
    for child in i.children:
        if child.name == "ns1:area":
            for y in child.children:
                if y.name == "ns1:areaid":
                    print(y.text)

或者以小寫形式搜索標簽ns1:AreaId並獲取他的文本。 這樣您就可以從所有ns1:AreaId標簽中獲取所有文本值。

soup.find_all("ns1:AreaId".lower())[0].text

兩種情況都會 output

"10YDK-1--------W"

Answer 2

試試這個方法，

import bs4
import re

data = """
<ns1:AffectedAreas>
      <ns1:Area>
        <ns1:AreaId>10YDK-1--------W</ns1:AreaId>
        <ns1:AreaName>DK1</ns1:AreaName>
      </ns1:Area>
</ns1:AffectedAreas>
"""
def striphtml(data):
    p = re.compile(r'<.*?>')
    return p.sub('', data)

bs = bs4.BeautifulSoup(data, "html.parser")
areaid = bs.find_all('ns1:areaid')
print((striphtml(str(areaid))))

在這里， striphtml function 將刪除所有包含<>的標簽。所以 output 將是，

[10YDK-1--------W]

Answer 3

如果您在 HTML/XML 文檔中定義了命名空間，則可以使用xml解析器和 CSS 選擇器。

例如：

txt = '''<root xmlns:ns1="some namespace">
    <ns1:AffectedAreas>
      <ns1:Area>
        <ns1:AreaId>10YDK-1--------W</ns1:AreaId>
        <ns1:AreaName>DK1</ns1:AreaName>
      </ns1:Area>
</ns1:AffectedAreas>
</root>'''

soup = BeautifulSoup(txt, 'xml')

area_id = soup.select_one('ns1|AffectedAreas ns1|AreaId').text
print(area_id)

印刷：

10YDK-1--------W

Answer 4

另一種方法。

from simplified_scrapy import SimplifiedDoc, req, utils
html = '''
<ns1:AffectedAreas>
      <ns1:Area>
        <ns1:AreaId>10YDK-1--------W</ns1:AreaId>
        <ns1:AreaName>DK1</ns1:AreaName>
      </ns1:Area>
      <ns1:Area>
        <ns1:AreaId>10YDK-2--------W</ns1:AreaId>
        <ns1:AreaName>DK2</ns1:AreaName>
      </ns1:Area>
</ns1:AffectedAreas>
'''
doc = SimplifiedDoc(html)
AffectedArea = doc.select('ns1:AffectedAreas')
Areas =  AffectedArea.selects('ns1:Area')
AreaIds = Areas.select('ns1:AreaId').html
print (AreaIds)
# or
# print (doc.select('ns1:AffectedAreas').selects('ns1:Area').select('ns1:AreaId').html)

結果：

['10YDK-1--------W', '10YDK-2--------W']

這里有更多例子： https://github.com/yiyedata/simplified-scrapy-demo/tree/master/doc_examples

如何使用美麗的湯訪問 HTML 文件中的下一個元素

問題描述

4 個解決方案

解決方案1
0 2020-06-19 09:28:27

解決方案2
0 2020-06-19 09:55:56

解決方案3
0 2020-06-19 10:15:02

解決方案4
0 2020-06-21 00:52:40

如何使用美麗的湯訪問 HTML 文件中的下一個元素

問題描述

4 個解決方案

解決方案1 0 2020-06-19 09:28:27

解決方案2 0 2020-06-19 09:55:56

解決方案3 0 2020-06-19 10:15:02

解決方案4 0 2020-06-21 00:52:40

解決方案1
0 2020-06-19 09:28:27

解決方案2
0 2020-06-19 09:55:56

解決方案3
0 2020-06-19 10:15:02

解決方案4
0 2020-06-21 00:52:40