簡體   English   中英

使用Crawler4j抓取PDF

[英]Crawling PDF's with Crawler4j

我目前正在使用crawler4j來抓取網站並返回頁面網址和頁面父網頁網址。 我使用的基本爬蟲工作正常,除了它沒有返回PDF。 我知道它爬行PDF,因為我已經檢查了在添加過濾器和pdf顯示之前它爬行的內容。 當PDF進入時,它似乎消失/跳過

public void visit(Page page){

我不知道為什么這樣做。 誰能幫我這個? 這將不勝感激! 謝謝

這是非常及時的,我實際上正在處理同樣的問題,並遇到了完全相同的問題。 我在shouldVisit中為PDF網址返回true,但是我沒有看到它們像你一樣出現在訪問(頁面頁面)中。 我將源跟蹤到了CrawlConfig:

config.setIncludeBinaryContentInCrawling(true)

將其設置為true將導致PDF顯示在visit方法中。 雖然看起來像讀取二進制數據必須在實現者身上使用Apache PDFBox或Apache Tika(或其他一些PDF庫)來完成。 希望這可以幫助。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM