如何从html源代码中具有相同属性集和相同层次结构的2个元素中抓取单个元素（使用python的漂亮汤）

Question

我想废弃图像中用蓝色突出显示的元素。这个元素表示特定电影的“没有投票”。当我试图刮掉它时，我也在图像中获得底部元素，代表“集合” “对于那部电影，因为两个元素都有相同的属性，并且在同一层次结构中。有没有办法只提取突出显示的元素？

Answer 1

一种方法可能是迭代<p class="sort-num_votes-visible">所有兄弟，如果你发现一个<span name="nv">被<span class="text-muted">包围了<span class="ghost">那么这必须是您正在寻找的范围。 这当然意味着HTML片段的结构始终是相同的。 如果其中一个span s可能丢失，那么这种方法显然会失败。

如果保证这两个跨度总是在那里并且按照确切的顺序你可以做这样的事情（你的html_soup HTML在html_soup ）：

votes = html_soup.find("p", {"class": "sort-num_votes-visible").find_all("span", {"name": "nv"})[0]

编辑：

根据您的评论，您可以执行以下操作以解析多部电影的投票：

for p in html_soup.find("p", {"class": "sort-num_votes-visible"}):
    votes = p.find_all("span", {"name": "nv"})[0]

    < Put whatever code here for each of your movies
      ...
    >

Answer 2

你可以使用这样的东西（假设你使用的是BeautifulSoup）：

soup = BeautifulSoup('yourhtml', 'lxml')
p_sort = soup.find('p', {'class':'sort-num_votes-visible'})
req_span = p_sort.find_all('span', {'name':'nv'})[0]

req_span将包含您询问的标记。

Answer 3

如果这两个相似的span元素的顺序相同，那么您可以选择result的第一个元素或使用.find（）而不是.find_all（）[0]。

Answer 4

我认为parsel是一个更好的html解析包，支持xpath 。

from parsel import Selector

s = Selector(text=html)
nv_data = s.xpath('//span[@name="nv"]/@data-value').extract_first()

如何从html源代码中具有相同属性集和相同层次结构的2个元素中抓取单个元素（使用python的漂亮汤）

问题描述

4 个解决方案

解决方案1
3 已采纳 2018-06-26 08:59:03

解决方案2
1 2018-06-26 09:03:47

解决方案3
1 2018-06-26 09:03:54

解决方案4
1 2018-06-26 11:08:43

如何从html源代码中具有相同属性集和相同层次结构的2个元素中抓取单个元素（使用python的漂亮汤）

问题描述

4 个解决方案

解决方案1 3 已采纳 2018-06-26 08:59:03

解决方案2 1 2018-06-26 09:03:47

解决方案3 1 2018-06-26 09:03:54

解决方案4 1 2018-06-26 11:08:43

解决方案1
3 已采纳 2018-06-26 08:59:03

解决方案2
1 2018-06-26 09:03:47

解决方案3
1 2018-06-26 09:03:54

解决方案4
1 2018-06-26 11:08:43