簡體   English   中英

從html提取數據

[英]Extract data from html

我有一個HTML文檔,其結構如下:

<!DOCTYPE html>
<html>
<body>

<p>One</p>
<p>Two</p>
<p>Three</p>

</body>
</html>

為Python提供建議模塊,我可以使用該模塊:

var = ModuleName.html.bode.p2
print(var)
Two

BeautifulSoup將使其非常接近您的要求:

from bs4 import BeautifulSoup

soup = BeautifulSoup(data)

print(soup.html.body("p")[1].text)  # prints Two

換句話說,此處的點快捷方式為“查找”,括號中的快捷方式為“查找全部”。

我建議您使用BeautifulSoup解析HTML並使用CSS選擇器提取所需的內容。

您可以在文檔中找到與您想做的事情非常相似的示例: http : //www.crummy.com/software/BeautifulSoup/bs4/doc/#css-selectors

編輯:這是代碼段,因為文檔有錯別字,並且省略了選擇器字符串中的“:”。

from bs4 import BeautifulSoup

data = "<!DOCTYPE html> <html> <body><p>One</p><p>Two</p><p>Three</p></body></html>"

soup = BeautifulSoup(data, 'html.parser')
print soup.body.select("p:nth-of-type(2)")

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM