簡體   English   中英

如何使用lxml.html庫解析HTML

[英]How to parse HTML using the lxml.html library

這是出現在我的網站上的HTML

<meta content="auth" name="param" />
<meta content="I_WANT_THIS" name="token" />

如何使用lxml.html進行抓取?

使用xpath通過name屬性查找meta標記並獲取content屬性的值:

from lxml.html import fromstring


html_data = """ <meta content="auth" name="param" />
 <meta content="I_WANT_THIS" name="token" />"""

tree = fromstring(html_data)
print tree.xpath('//meta[@name="token"]/@content')

打印:

['I_WANT_THIS']

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM