簡體   English   中英

Java&Heritrix 3.1.x:Web內容解析?

[英]Java & Heritrix 3.1.x: Web Content parsing?

由於Heritrix 3.x的開發人員文檔已經過時(大多數與Heritrix 1.x有關,因為大多數類已更改或代碼已被大量重寫/重構),所以有人可以向我指出相關內容嗎?處理實際網頁內容提取的系統的一個或多個類?

我要做的是獲取Heritrix將要爬網的網頁的內容,然后將分類器應用於網頁的內容? (分析結構特征等),我認為此功能可能分布在ContentExtractor類及其許多子類之間,但是我想做的是確定我完全擁有或完全擁有網頁內容的位置可讀/可解析的流。 Heritrix將正則表達式應用於的內容(html)在哪里(以查找鏈接,某些文件類型等)?

我建議查看一個自定義的WriterProcessor,我編寫了一個自定義的MirrorWriter,該MirrorWriter會查看傳入的數據,並在文件到達時將文件寫入不同的位置,以供以后進行后期處理。 MirrorWriter類的代碼相當簡單,而且注釋也不錯。 該文檔位於: http : //builds.archive.org : 8080/javadoc/heritrix-3.1.0/org/archive/modules/writer/MirrorWriterProcessor.html

如果您對預處理一無所知,則可以擴展org.archive.modules.extractor.ExtractorHTML並進行即時版本處理。 http://builds.archive.org:8080/javadoc/heritrix-3.1.0/org/archive/modules/extractor/ExtractorHTML.html

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM