[英]How to Parse contents of HTML tag which is inside an HTML tag with BeautifulSoup?
在網絡上發現html的唯一情況是,有一個html文檔在父HTML標記內具有多個html標記。 我想解析html標記的內容。 誰能指出我這樣做的方向?
提前致謝。
編輯1:使用BeautifulSoup
soup = BeautifulSoup(html, "lxml")
僅給出父html和其中包含的標簽。
但是,我假設瀏覽器是否能夠呈現html BS應該能夠對其進行解析。 這個假設正確嗎?
編輯2:實際上html是格式錯誤的html(我在這里假設),這是我正在用beautifulsoup解析的html,我只是以某種方式獲取表格和第一個(最外層)html。 如果我手動刪除多個HTML標記並且僅保留1個html標記,則可以在BS中解析該表。 因此,問題是“是否有任何方法可以解析以下html並從文件的最內部或所有表中獲取數據?
<!DOCTYPE html>
<html>
<head>
<title>Some Title</title>
</head>
<body>
some html to display the tables.
<html>
<head></head>
<title>Some other title</title>
<body>
some html to display even more tables.
</body>
</html>
</body>
</html>
這是一個示例代碼,您可以用來在特定類型的html標簽中查找特定文本
soup2 = BeautifulSoup(x, 'html.parser')
for i in soup2.find_all('ul', attrs={'class': 'results-base'}):
for j in i.find_all('li'):
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.