如何使用BeautifulSoup解析HTML標記內的HTML標記內容？

Question

在網絡上發現html的唯一情況是，有一個html文檔在父HTML標記內具有多個html標記。 我想解析html標記的內容。 誰能指出我這樣做的方向？

提前致謝。

編輯1：使用BeautifulSoup

soup = BeautifulSoup(html, "lxml")

僅給出父html和其中包含的標簽。

但是，我假設瀏覽器是否能夠呈現html BS應該能夠對其進行解析。 這個假設正確嗎？

編輯2：實際上html是格式錯誤的html（我在這里假設），這是我正在用beautifulsoup解析的html，我只是以某種方式獲取表格和第一個（最外層）html。 如果我手動刪除多個HTML標記並且僅保留1個html標記，則可以在BS中解析該表。 因此，問題是“是否有任何方法可以解析以下html並從文件的最內部或所有表中獲取數據？

<!DOCTYPE html>
<html>
<head>
    <title>Some Title</title>
</head>
<body>
    some html to display the tables.
    <html>
        <head></head>
        <title>Some other title</title>
        <body>
            some html to display even more tables.
        </body>
    </html>
</body>
</html>

Answer 1

這是一個示例代碼，您可以用來在特定類型的html標簽中查找特定文本

soup2 = BeautifulSoup(x, 'html.parser')
    for i in soup2.find_all('ul', attrs={'class': 'results-base'}):
         for j in i.find_all('li'):

Answer 2

這是一些與您的問題相關的網站，我認為您可以找到自己想要的答案。

如何使用BeautifulSoup解析HTML標記內的HTML標記內容？

問題描述

2 個解決方案

解決方案1
0 2017-06-05 07:20:13

解決方案2
0 2017-06-06 13:12:26

如何使用BeautifulSoup解析HTML標記內的HTML標記內容？

問題描述

2 個解決方案

解決方案1 0 2017-06-05 07:20:13

解決方案2 0 2017-06-06 13:12:26

解決方案1
0 2017-06-05 07:20:13

解決方案2
0 2017-06-06 13:12:26