lxml 如何定位和檢索多個元素值？

Question

請考慮以下 HTML：

<html>
    <body>
        <ul>
            <li><h5>Title 1</h5><div><span>Apples</span></li>
            <li><h5>Title 2</h5><div><span>Bananas</span></li>
            <li><h5>Title 3</h5><div><span>Grapes</span></li>
            <li><h5>Title 4</h5><div><span>Pears</span></li>
        </ul>
    </body>
</html>

使用 lxml，我可以輕松檢索 h5：

from lxml import html

example_html = '''<html>
    <body>
        <ul>
            <li><h5>Title 1</h5><div><span>Apples</span></li>
            <li><h5>Title 2</h5><div><span>Bananas</span></li>
            <li><h5>Title 3</h5><div><span>Grapes</span></li>
            <li><h5>Title 4</h5><div><span>Pears</span></li>
        </ul>
    </body>
</html>'''

tree = html.fromstring(example_html)

element_list = tree.xpath('//h5')

# List comprehension to get text
result = [i.text for i in element_list]

print(result)

從該代碼，當然結果將是：

['Title 1', 'Title 2', 'Title 3', 'Title 4']

但我需要知道如何產生這樣的結果：

['Title 1', 'Apples', 'Title 2', 'Bananas', 'Title 3', 'Grapes', 'Title 4', 'Pears']

我嘗試像這樣修改代碼：

collector = []
for i in element_list:
    h5 = i.xpath('//h5')
    collector.append(h5[0].text)
    span = i.xpath('//span')
    collector.append(span[0].text)

print(collector)

但得到了這個結果（接近但不完全）：

['Title 1', 'Apples', 'Title 1', 'Apples', 'Title 1', 'Apples', 'Title 1', 'Apples']

這有可能嗎？ 我得到了上面的代碼，任何幫助將不勝感激。 非常感謝你。

Answer 1

您可以使用聯合，它按文檔順序返回結果。

e=tree.xpath("//li/h5|//li/div/span")

Answer 2

我對 lxml 不是很熟悉，但我用過漂亮的湯。 如果您可以切換，請嘗試以下代碼：

from bs4 import BeautifulSoup

example_html = '''<html>
    <body>
        <ul>
            <li><h5>Title 1</h5><div><span>Apples</span></li>
            <li><h5>Title 2</h5><div><span>Bananas</span></li>
            <li><h5>Title 3</h5><div><span>Grapes</span></li>
            <li><h5>Title 4</h5><div><span>Pears</span></li>
        </ul>
    </body>
</html>'''

soup = BeautifulSoup(example_html, 'html.parser')
list = []
for elem in soup.findAll('li'):
    list.append(elem.find('h5').text)
    list.append(elem.find('span').text)

print(list)

希望這可以幫助！

Answer 3

另一種解決方案，也許你會喜歡它。

from simplified_scrapy import SimplifiedDoc
html = '''<html>
    <body>
        <ul>
            <li><h5>Title 1</h5><div><span>Apples</span></li>
            <li><h5>Title 2</h5><div><span>Bananas</span></li>
            <li><h5>Title 3</h5><div><span>Grapes</span></li>
            <li><h5>Title 4</h5><div><span>Pears</span></li>
        </ul>
    </body>
</html>'''
doc = SimplifiedDoc(html)
lis = doc.selects('li>(h5,span)')
print (lis)

結果：

[['Title 1', 'Apples'], ['Title 2', 'Bananas'], ['Title 3', 'Grapes'], ['Title 4', 'Pears']]

lxml 如何定位和檢索多個元素值？

問題描述

3 個解決方案

解決方案1
1 已采納 2020-03-03 02:40:52

解決方案2
0 2020-03-03 02:41:08

解決方案3
0 2020-03-03 23:38:57

lxml 如何定位和檢索多個元素值？

問題描述

3 個解決方案

解決方案1 1 已采納 2020-03-03 02:40:52

解決方案2 0 2020-03-03 02:41:08

解決方案3 0 2020-03-03 23:38:57

解決方案1
1 已采納 2020-03-03 02:40:52

解決方案2
0 2020-03-03 02:41:08

解決方案3
0 2020-03-03 23:38:57