xpath獲取Python中的元素列表

Question

我正在嘗試從看起來像這樣的頁面中抓取元素列表：

<div class="container">
    <b>1</b>
    <b>2</b>
    <b>3</b>
</div>
<div class="container">
    <b>4</b>
    <b>5</b>
    <b>6</b>
</div>

我想使用xpath獲取列表或元組：[1,2,3]，[4,5,6] ...

在頁面上使用for循環，我得到每個列表的第一個元素或所有數字作為一個列表。

你能幫我解決這個問題嗎？ 預先感謝您的任何幫助！

Answer 1

對於靜態頁面的Web抓取，最好使用bs4軟件包。 並使用bs4可以輕松實現目標：

from bs4 import BeautifulSoup
source = """<div class="container">
    <b>1</b>
    <b>2</b>
    <b>3</b>
</div>
<div class="container">
    <b>4</b>
    <b>5</b>
    <b>6</b>
</div>"""
soup = BeautifulSoup(source, 'html.parser')  # parse content/ page source
soup.find_all('div', {'class': 'container'})  # find all the div element (second argument is optional mentioned to scrape/find only element with attribute value)
print([[int(x.text) for x in i.find_all('b')] for i in soup.find_all('div', {'class': 'container'})])  # get list of all div's number list as you require

輸出：

[[1, 2, 3], [4, 5, 6]]

Answer 2

您可以使用此xpath表達式，這將給您兩個字符串

.//*[@class='container']    ➡ '1 2 3', '4 5 6'

如果您希望使用6弦

.//*[@class='container']/b  ➡ '1','2','3','4','5','6'

盡管您必須分離xpath表達式才能獲得所需的確切信息

.//*[@class='container'][1]/b  ➡ '1','2','3'
.//*[@class='container'][2]/b  ➡ '4','5','6'

xpath獲取Python中的元素列表

問題描述

2 個解決方案

解決方案1
0 已采納 2018-07-08 19:29:36

解決方案2
0 2018-07-08 20:22:34

xpath獲取Python中的元素列表

問題描述

2 個解決方案

解決方案1 0 已采納 2018-07-08 19:29:36

解決方案2 0 2018-07-08 20:22:34

解決方案1
0 已采納 2018-07-08 19:29:36

解決方案2
0 2018-07-08 20:22:34