繁体 English 中英

如何使用Nutch抓取和解析仅精确数据？

[英]How to crawl and parse only precise data using Nutch?

原文 2015-09-24 09:44:04 7 2 java/ parsing/ solr/ web-crawler/ nutch

我是Nutch和爬行的新手。 我已经按照以下一些基本教程安装了Nutch 2.0，并使用Solr 4.5对数据进行了爬网和建立索引。 现在，我不想解析页面的所有文本内容，我想对其进行自定义，例如Nutch应该抓取页面并仅抓取/获取与地址相关的数据，因为我的用例是抓取URL并仅分析地址信息作为文字。

例如，我只需要抓取和解析包含地址信息，电子邮件ID，电话号码和传真号码的文本内容。

我应该怎么做？ 已经有可用的插件了吗？
如果我要为此编写一个自定义的解析器，有人可以在这方面帮助我吗？

2 个解决方案

签出NUTCH-1870 ，这是针对Nutch的通用XPath插件的一项正在进行的工作，替代方法是编写一个自定义HtmlParseFilter，以抓取所需的数据。 标题插件是一个很好的（简单的）示例。 请记住，这两个链接都适用于Nutch的1.x分支，并且您正在使用2.x，尽管在某种程度上逻辑应该可移植的逻辑有所不同，另一种选择是使用1.x。科。

根据您的评论：

由于您不知道网页的结构，因此问题有所不同：本质上，您需要基于某种正则表达式或使用某些能够从中提取地址的库来“教” Nutch如何检测所需的文本。纯文本（例如jgeocoder库），您需要进行解析（在网页的每个节点上重复），以查找类似于地址，电话号码，传真号码等的内容。这与标题插件的功能类似，但是，除了查找地址或电话号码外，它只是在HTML结构中找到标题节点。 这可能是编写一些可以满足您需求的插件的起点，但是我认为没有什么可以立即使用的。

选中[NUTCH-978] ，它引入了一个名为XPath的插件，该插件可允许Nuct的用户处理各种网页，并仅获取用户所需的某些信息，从而使索引更加准确，其内容更加灵活。

使用Nutch或Heritrix进行定向爬网

[英]Directed crawl using Nutch or Heritrix

使用Nutch如何抓取uisng ajax的网页的动态内容？

[英]Using Nutch how to crawl the dynamic content of web page that are uisng ajax?

如何定义我的坚果爬行的覆盖范围？

[英]How to define the coverage of my nutch crawl?

坚果-如何抓取特定文件类型？

[英]nutch - how to crawl a specific file type?

Nutch-Hadoop： - 我们如何只抓取要重新抓取的网址中的更新？

[英]Nutch-Hadoop:- how can we crawl only the updates in the url going for recrawl?

Nutch regex用于抓取

[英]Nutch regex for crawl

空的Nutch抓取列表

[英]Empty Nutch crawl list

使用Jsoup登录和抓取数据

[英]using Jsoup to sign in and crawl data

Nutch不会对具有查询字符串参数的URL进行爬网

[英]Nutch does not crawl URLs with query string parameters

无法使用Nutch 2.3抓取经过身份验证的页面

[英]Failed to crawl authenticated page with Nutch 2.3

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 使用Nutch或Heritrix进行定向爬网使用Nutch如何抓取uisng ajax的网页的动态内容？如何定义我的坚果爬行的覆盖范围？坚果-如何抓取特定文件类型？ Nutch-Hadoop： - 我们如何只抓取要重新抓取的网址中的更新？ Nutch regex用于抓取空的Nutch抓取列表使用Jsoup登录和抓取数据 Nutch不会对具有查询字符串参数的URL进行爬网无法使用Nutch 2.3抓取经过身份验证的页面

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM