繁体   English   中英

Java&Heritrix 3.1.x:Web内容解析?

[英]Java & Heritrix 3.1.x: Web Content parsing?

由于Heritrix 3.x的开发人员文档已经过时(大多数与Heritrix 1.x有关,因为大多数类已更改或代码已被大量重写/重构),所以有人可以向我指出相关内容吗?处理实际网页内容提取的系统的一个或多个类?

我要做的是获取Heritrix将要爬网的网页的内容,然后将分类器应用于网页的内容? (分析结构特征等),我认为此功能可能分布在ContentExtractor类及其许多子类之间,但是我想做的是确定我完全拥有或完全拥有网页内容的位置可读/可解析的流。 Heritrix将正则表达式应用于的内容(html)在哪里(以查找链接,某些文件类型等)?

我建议查看一个自定义的WriterProcessor,我编写了一个自定义的MirrorWriter,该MirrorWriter会查看传入的数据,并在文件到达时将文件写入不同的位置,以供以后进行后期处理。 MirrorWriter类的代码相当简单,而且注释也不错。 该文档位于: http : //builds.archive.org : 8080/javadoc/heritrix-3.1.0/org/archive/modules/writer/MirrorWriterProcessor.html

如果您对预处理一无所知,则可以扩展org.archive.modules.extractor.ExtractorHTML并进行即时版本处理。 http://builds.archive.org:8080/javadoc/heritrix-3.1.0/org/archive/modules/extractor/ExtractorHTML.html

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM