使用Python和lxml.html解析HTML

Question

我正在scraperwiki.com創建一個Python刮板。 我需要解析包含以下代碼的html頁面的一部分：

<div class="div_class">
    <h3>I'm a title. Don't touch me</h3>
    <ul>
        <li>
        I'm a title. Parse me
            <ul>
                <li>fdfdsfd</li>
                <li>fdfdsfd</li>
                <li>fdfdsfd</li>
                <li>fdfdsfd</li>
            </ul>
        </li>
        <li>
        I'm a title. Parse me
        <ul>
                <li>fdfdsfd</li>
                <li>fdfdsfd</li>
                <li>fdfdsfd</li>
                <li>fdfdsfd</li>
            </ul>
        </li>
        <li>
        I'm a title. Parse me
        <ul>
                <li>fdfdsfd</li>
                <li>fdfdsfd</li>
                <li>fdfdsfd</li>
                <li>fdfdsfd</li>
            </ul>
        </li>
        <li>
        I'm a title. Parse me
        <ul>
                <li>fdfdsfd</li>
                <li>fdfdsfd</li>
                <li>fdfdsfd</li>
                <li>fdfdsfd</li>
            </ul>
        </li>
    </ul>
</div>

我只想解析“我是標題。解析我”標題。 這是我的做法：

import scraperwiki
import lxml.html
import re 
import datetime
#.......................
raw_string = lxml.html.fromstring(scraperwiki.scrape(url_to_scrape))
raw_html = raw_string.cssselect("div.div_class ul > li")
for item in ras_html
  print(item.text_content())

我上班了 但是它捕獲了所有數據ul。 我不想要它，我只想在每個ul中找到“我是標題。解析我”，僅此而已。

我該怎么做？

Answer 1

lxml在於，您可以同時使用css選擇器和xpath查找頁面上的任何元素。

在您的情況下，由於您嵌套了<ul>列表，因此最好使用xpath進行導航：

# find every <li> in the <ul> under div with class div_class
raw_html = raw_string.xpath("//div[@class='div_class']/ul/li")
for item in raw_html:
    print(item.text.strip())

打印：

I'm a title. Parse me
I'm a title. Parse me
I'm a title. Parse me
I'm a title. Parse me

這是lxml中xpath的簡要說明： http : //lxml.de/tutorial.html#using-xpath-to-find-text

使用Python和lxml.html解析HTML

問題描述

1 個解決方案

解決方案1
4 已采納 2012-10-25 03:56:43

使用Python和lxml.html解析HTML

問題描述

1 個解決方案

解決方案1 4 已采納 2012-10-25 03:56:43

解決方案1
4 已采納 2012-10-25 03:56:43