[英]How to parse HTML using the lxml.html library
這是出現在我的網站上的HTML
:
<meta content="auth" name="param" />
<meta content="I_WANT_THIS" name="token" />
如何使用lxml.html進行抓取?
使用xpath通過name
屬性查找meta
標記並獲取content
屬性的值:
from lxml.html import fromstring
html_data = """ <meta content="auth" name="param" />
<meta content="I_WANT_THIS" name="token" />"""
tree = fromstring(html_data)
print tree.xpath('//meta[@name="token"]/@content')
打印:
['I_WANT_THIS']
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.