簡體 English 中英

Java＆Heritrix 3.1.x：Web內容解析？

[英]Java & Heritrix 3.1.x: Web Content parsing?

原文 2013-07-19 15:54:48 7 1 java/ web-crawler/ webpage/ document-classification/ heritrix

由於Heritrix 3.x的開發人員文檔已經過時（大多數與Heritrix 1.x有關，因為大多數類已更改或代碼已被大量重寫/重構），所以有人可以向我指出相關內容嗎？處理實際網頁內容提取的系統的一個或多個類？

我要做的是獲取Heritrix將要爬網的網頁的內容，然后將分類器應用於網頁的內容？ （分析結構特征等），我認為此功能可能分布在ContentExtractor類及其許多子類之間，但是我想做的是確定我完全擁有或完全擁有網頁內容的位置可讀/可解析的流。 Heritrix將正則表達式應用於的內容（html）在哪里（以查找鏈接，某些文件類型等）？

1 個解決方案

我建議查看一個自定義的WriterProcessor，我編寫了一個自定義的MirrorWriter，該MirrorWriter會查看傳入的數據，並在文件到達時將文件寫入不同的位置，以供以后進行后期處理。 MirrorWriter類的代碼相當簡單，而且注釋也不錯。 該文檔位於： http : //builds.archive.org : 8080/javadoc/heritrix-3.1.0/org/archive/modules/writer/MirrorWriterProcessor.html

如果您對預處理一無所知，則可以擴展org.archive.modules.extractor.ExtractorHTML並進行即時版本處理。 http://builds.archive.org:8080/javadoc/heritrix-3.1.0/org/archive/modules/extractor/ExtractorHTML.html

如何使用JAVA運行Grails 3.1.x應用程序

[英]How to run Grails 3.1.x Application with JAVA

在Mac上使用Resin 3.1.x配置JRebel 5

[英]Configuring JRebel 5 with Resin 3.1.x on mac

Spring 3.1.x里程碑存儲庫

[英]Spring 3.1.x milestone repository

找不到當前線程的會話（Spring 3.1.X和Hibernate 4）

[英]No Session found for current thread (Spring 3.1.X and Hibernate 4)

使用Spring 3.1.x和MockMvc模擬/自動裝配bean

[英]Mocking/autowiring beans with Spring 3.1.x and MockMvc

從Spring 3.0.x遷移到3.1.x時出現BadCredentialsException

[英]BadCredentialsException when migrating from Spring 3.0.x to 3.1.x

在Spring 3.1.x中是否可以為緩存定義更多KeyGenerator類？

[英]Is it possible to define more KeyGenerator classes for cache in Spring version 3.1.x?

Spring Security 3.1.x和JSF 2.0：“ BeanCreationException：創建名稱為'org.springframework.security.filterChains'的bean時出錯”

[英]Spring Security 3.1.x & JSF 2.0 : “ BeanCreationException: Error creating bean with name 'org.springframework.security.filterChains' ”

如何使用帶有Heritrix 3.1的HeaderedArchiveRecord遍歷WARC文件

[英]How to loop through WARC files using HeaderedArchiveRecord with Heritrix 3.1

在Java中解析json文件內容

[英]Parsing json file content in java

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 如何使用JAVA運行Grails 3.1.x應用程序在Mac上使用Resin 3.1.x配置JRebel 5 Spring 3.1.x里程碑存儲庫找不到當前線程的會話（Spring 3.1.X和Hibernate 4）使用Spring 3.1.x和MockMvc模擬/自動裝配bean 從Spring 3.0.x遷移到3.1.x時出現BadCredentialsException 在Spring 3.1.x中是否可以為緩存定義更多KeyGenerator類？ Spring Security 3.1.x和JSF 2.0：“ BeanCreationException：創建名稱為'org.springframework.security.filterChains'的bean時出錯” 如何使用帶有Heritrix 3.1的HeaderedArchiveRecord遍歷WARC文件在Java中解析json文件內容

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM