是否可以找到具有相同dom结构的节点

Question

我从Scrapy的许多网站中抓取了很多html（内容相似），而dom的结构却不同。

例如，其中一个站点使用以下结构：

<div class="post">
    <section class='content'>
        Content1
    </section>

    <section class="panel">
    </section>
</div>
<div class="post">
    <section class='content'>
        Conent2
    </section>

    <section class="panel">
    </section>
</div>

我想提取数据Content和Content2 。

虽然另一个站点可能使用这样的结构：

<article class="entry">
    <section class='title'>
        Content3
    </section>
</article>
<article class="entry">
    <section class='title'>
        Conent4
    </section>
</article>

我想提取数据Content3和Content4 。

最简单的解决方案是为所有站点一一标记所需的数据xpath。 那将是一件乏味的工作。

所以我想知道结构是否可以自动提取。 实际上，我只需要位于重复的根节点（在上面的示例中为div.post和article.entry ），就可以使用某些特定规则提取数据。

这可能吗？

顺便说一句，我不确定这种算法的名称，所以这篇文章的标签可能是错误的，如果是真的，可以随意修改。

Answer 1

您必须至少知道一些常见的模式才能制定确定性的提取规则。 以下解决方案非常原始，绝非最佳选择，但它可能会帮助您：

# -*- coding: utf-8 -*-
import re

import bs4
from bs4 import element
import scrapy


class ExampleSpider(scrapy.Spider):
    name = "example"
    start_urls = ['http://quotes.toscrape.com/']

    def parse(self, response):
        min_occurs = 5
        max_occurs = 1000
        min_depth = 7
        max_depth = 7
        pattern = re.compile('^/html/body/.*/(span|div)$')
        extract_content = lambda e: e.css('::text').extract_first()
        #extract_content = lambda e: ' '.join(e.css('*::text').extract())

        doc = bs4.BeautifulSoup(response.body, 'html.parser')

        paths = {}
        self._walk(doc, '', paths)
        paths = self._filter(paths, pattern, min_depth, max_depth,
                             min_occurs, max_occurs)

        for path in paths.keys():
            for e in response.xpath(path):
                yield {'content': extract_content(e)}

    def _walk(self, doc, parent, paths):
        for tag in doc.children:
            if isinstance(tag, element.Tag):
                path = parent + '/' + tag.name
                paths[path] = paths.get(path, 0) + 1
                self._walk(tag, path, paths)

    def _filter(self, paths, pattern, min_depth, max_depth, min_occurs, max_occurs):
        return dict((path, count) for path, count in paths.items()
                        if pattern.match(path) and
                                min_depth <= path.count('/') <= max_depth and
                                min_occurs <= count <= max_occurs)

它是这样的：

浏览HTML文档，并构造文档中所有元素路径及其出现的字典。
根据您从网页推断出的一般规则过滤这些路径。
使用一些常见的提取逻辑从这些过滤的路径中提取内容。

为了构建路径字典，我只是使用BeautifulSoup文档，并计算每个元素路径的出现次数。 以后可以在过滤任务中使用它，以仅保留最多重复的路径。

接下来，我根据一些基本规则过滤出路径。 为了保留路径，它必须：

发生至少min_occurs ，最多max_occurs倍。
长度至少为min_depth ，最大为max_depth 。
匹配pattern 。

可以以类似方式添加其他规则。

最后一部分遍历过滤后留下的路径，并使用一些使用extract_content定义的通用逻辑从元素中提取内容。

如果您的网页非常简单，并且可以推断出此类规则，则可能会起作用。 否则，您将不得不考虑某种我认为是机器学习的任务。

是否可以找到具有相同dom结构的节点

问题描述

1 个解决方案

解决方案1
3 已采纳 2017-07-28 06:42:32

是否可以找到具有相同dom结构的节点

问题描述

1 个解决方案

解决方案1 3 已采纳 2017-07-28 06:42:32

解决方案1
3 已采纳 2017-07-28 06:42:32