繁体 English 中英

Java＆Heritrix 3.1.x：Web内容解析？

[英]Java & Heritrix 3.1.x: Web Content parsing?

原文 2013-07-19 15:54:48 2 1 java/ web-crawler/ webpage/ document-classification/ heritrix

由于Heritrix 3.x的开发人员文档已经过时（大多数与Heritrix 1.x有关，因为大多数类已更改或代码已被大量重写/重构），所以有人可以向我指出相关内容吗？处理实际网页内容提取的系统的一个或多个类？

我要做的是获取Heritrix将要爬网的网页的内容，然后将分类器应用于网页的内容？ （分析结构特征等），我认为此功能可能分布在ContentExtractor类及其许多子类之间，但是我想做的是确定我完全拥有或完全拥有网页内容的位置可读/可解析的流。 Heritrix将正则表达式应用于的内容（html）在哪里（以查找链接，某些文件类型等）？

1 个解决方案

我建议查看一个自定义的WriterProcessor，我编写了一个自定义的MirrorWriter，该MirrorWriter会查看传入的数据，并在文件到达时将文件写入不同的位置，以供以后进行后期处理。 MirrorWriter类的代码相当简单，而且注释也不错。 该文档位于： http : //builds.archive.org : 8080/javadoc/heritrix-3.1.0/org/archive/modules/writer/MirrorWriterProcessor.html

如果您对预处理一无所知，则可以扩展org.archive.modules.extractor.ExtractorHTML并进行即时版本处理。 http://builds.archive.org:8080/javadoc/heritrix-3.1.0/org/archive/modules/extractor/ExtractorHTML.html

如何使用JAVA运行Grails 3.1.x应用程序

[英]How to run Grails 3.1.x Application with JAVA

在Mac上使用Resin 3.1.x配置JRebel 5

[英]Configuring JRebel 5 with Resin 3.1.x on mac

Spring 3.1.x里程碑存储库

[英]Spring 3.1.x milestone repository

找不到当前线程的会话（Spring 3.1.X和Hibernate 4）

[英]No Session found for current thread (Spring 3.1.X and Hibernate 4)

使用Spring 3.1.x和MockMvc模拟/自动装配bean

[英]Mocking/autowiring beans with Spring 3.1.x and MockMvc

从Spring 3.0.x迁移到3.1.x时出现BadCredentialsException

[英]BadCredentialsException when migrating from Spring 3.0.x to 3.1.x

在Spring 3.1.x中是否可以为缓存定义更多KeyGenerator类？

[英]Is it possible to define more KeyGenerator classes for cache in Spring version 3.1.x?

Spring Security 3.1.x和JSF 2.0：“ BeanCreationException：创建名称为'org.springframework.security.filterChains'的bean时出错”

[英]Spring Security 3.1.x & JSF 2.0 : “ BeanCreationException: Error creating bean with name 'org.springframework.security.filterChains' ”

如何使用带有Heritrix 3.1的HeaderedArchiveRecord遍历WARC文件

[英]How to loop through WARC files using HeaderedArchiveRecord with Heritrix 3.1

在Java中解析json文件内容

[英]Parsing json file content in java

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 如何使用JAVA运行Grails 3.1.x应用程序在Mac上使用Resin 3.1.x配置JRebel 5 Spring 3.1.x里程碑存储库找不到当前线程的会话（Spring 3.1.X和Hibernate 4）使用Spring 3.1.x和MockMvc模拟/自动装配bean 从Spring 3.0.x迁移到3.1.x时出现BadCredentialsException 在Spring 3.1.x中是否可以为缓存定义更多KeyGenerator类？ Spring Security 3.1.x和JSF 2.0：“ BeanCreationException：创建名称为'org.springframework.security.filterChains'的bean时出错” 如何使用带有Heritrix 3.1的HeaderedArchiveRecord遍历WARC文件在Java中解析json文件内容

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM