從html提取數據

Question

我有一個HTML文檔，其結構如下：

<!DOCTYPE html>
<html>
<body>

<p>One</p>
<p>Two</p>
<p>Three</p>

</body>
</html>

為Python提供建議模塊，我可以使用該模塊：

var = ModuleName.html.bode.p2
print(var)
Two

Answer 1

BeautifulSoup將使其非常接近您的要求：

from bs4 import BeautifulSoup

soup = BeautifulSoup(data)

print(soup.html.body("p")[1].text)  # prints Two

換句話說，此處的點快捷方式為“查找”，括號中的快捷方式為“查找全部”。

Answer 2

我建議您使用BeautifulSoup解析HTML並使用CSS選擇器提取所需的內容。

您可以在文檔中找到與您想做的事情非常相似的示例： http : //www.crummy.com/software/BeautifulSoup/bs4/doc/#css-selectors

編輯：這是代碼段，因為文檔有錯別字，並且省略了選擇器字符串中的“：”。

from bs4 import BeautifulSoup

data = "<!DOCTYPE html> <html> <body><p>One</p><p>Two</p><p>Three</p></body></html>"

soup = BeautifulSoup(data, 'html.parser')
print soup.body.select("p:nth-of-type(2)")

從html提取數據

問題描述

2 個解決方案

解決方案1
2 已采納 2015-11-24 16:04:41

解決方案2
1 2015-11-24 16:01:52

從html提取數據

問題描述

2 個解決方案

解決方案1 2 已采納 2015-11-24 16:04:41

解決方案2 1 2015-11-24 16:01:52

解決方案1
2 已采納 2015-11-24 16:04:41

解決方案2
1 2015-11-24 16:01:52