[英]Parse Html with Python and lxml.html
我正在scraperwiki.com創建一個Python刮板。 我需要解析包含以下代碼的html頁面的一部分:
<div class="div_class">
<h3>I'm a title. Don't touch me</h3>
<ul>
<li>
I'm a title. Parse me
<ul>
<li>fdfdsfd</li>
<li>fdfdsfd</li>
<li>fdfdsfd</li>
<li>fdfdsfd</li>
</ul>
</li>
<li>
I'm a title. Parse me
<ul>
<li>fdfdsfd</li>
<li>fdfdsfd</li>
<li>fdfdsfd</li>
<li>fdfdsfd</li>
</ul>
</li>
<li>
I'm a title. Parse me
<ul>
<li>fdfdsfd</li>
<li>fdfdsfd</li>
<li>fdfdsfd</li>
<li>fdfdsfd</li>
</ul>
</li>
<li>
I'm a title. Parse me
<ul>
<li>fdfdsfd</li>
<li>fdfdsfd</li>
<li>fdfdsfd</li>
<li>fdfdsfd</li>
</ul>
</li>
</ul>
</div>
我只想解析“我是標題。解析我”標題。 這是我的做法:
import scraperwiki
import lxml.html
import re
import datetime
#.......................
raw_string = lxml.html.fromstring(scraperwiki.scrape(url_to_scrape))
raw_html = raw_string.cssselect("div.div_class ul > li")
for item in ras_html
print(item.text_content())
我上班了 但是它捕獲了所有數據ul。 我不想要它,我只想在每個ul中找到“我是標題。解析我”,僅此而已。
我該怎么做?
lxml
在於,您可以同時使用css選擇器和xpath查找頁面上的任何元素。
在您的情況下,由於您嵌套了<ul>
列表,因此最好使用xpath進行導航:
# find every <li> in the <ul> under div with class div_class
raw_html = raw_string.xpath("//div[@class='div_class']/ul/li")
for item in raw_html:
print(item.text.strip())
打印:
I'm a title. Parse me
I'm a title. Parse me
I'm a title. Parse me
I'm a title. Parse me
這是lxml中xpath的簡要說明: http : //lxml.de/tutorial.html#using-xpath-to-find-text
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.