簡體   English   中英

如何使用BeautifulSoup解析HTML標記內的HTML標記內容?

[英]How to Parse contents of HTML tag which is inside an HTML tag with BeautifulSoup?

在網絡上發現html的唯一情況是,有一個html文檔在父HTML標記內具有多個html標記。 我想解析html標記的內容。 誰能指出我這樣做的方向?

提前致謝。

編輯1:使用BeautifulSoup

soup = BeautifulSoup(html, "lxml")

僅給出父html和其中包含的標簽。

但是,我假設瀏覽器是否能夠呈現html BS應該能夠對其進行解析。 這個假設正確嗎?

編輯2:實際上html是格式錯誤的html(我在這里假設),這是我正在用beautifulsoup解析的html,我只是以某種方式獲取表格和第一個(最外層)html。 如果我手動刪除多個HTML標記並且僅保留1個html標記,則可以在BS中解析該表。 因此,問題是“是否有任何方法可以解析以下html並從文件的最內部或所有表中獲取數據?

<!DOCTYPE html>
<html>
<head>
    <title>Some Title</title>
</head>
<body>
    some html to display the tables.
    <html>
        <head></head>
        <title>Some other title</title>
        <body>
            some html to display even more tables.
        </body>
    </html>
</body>
</html>

這是一個示例代碼,您可以用來在特定類型的html標簽中查找特定文本

soup2 = BeautifulSoup(x, 'html.parser')
    for i in soup2.find_all('ul', attrs={'class': 'results-base'}):
         for j in i.find_all('li'):

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM