如何使用lxml.html庫解析HTML

Question

這是出現在我的網站上的HTML ：

<meta content="auth" name="param" />
<meta content="I_WANT_THIS" name="token" />

如何使用lxml.html進行抓取？

Answer 1

使用xpath通過name屬性查找meta標記並獲取content屬性的值：

from lxml.html import fromstring


html_data = """ <meta content="auth" name="param" />
 <meta content="I_WANT_THIS" name="token" />"""

tree = fromstring(html_data)
print tree.xpath('//meta[@name="token"]/@content')

打印：

['I_WANT_THIS']

如何使用lxml.html庫解析HTML

問題描述

1 個解決方案

解決方案1
2 已采納 2014-03-12 21:47:32

如何使用lxml.html庫解析HTML

問題描述

1 個解決方案

解決方案1 2 已采納 2014-03-12 21:47:32

解決方案1
2 已采納 2014-03-12 21:47:32