簡體   English   中英

nutch content.getContent()無法返回整個結果

[英]nutch content.getContent() can not return entire results

我是Apache Nutch的新手。

我正在使用Nutch爬網某些網站以獲取所有Web內容(包括HTML文件,PDF,圖像)。

我編寫了一個小的Java程序來從SEGEMENTs中提取Nutch結果,如下所示:

byte[] fileContents = content.getContent();

這里的問題是, getContent()返回字節數組。 因此,如果PDF內容的大小大於70KB(大約70,000字節); getContent()返回的數組不能保存整個文件內容,也無法獲取正確的PDF。

是否有其他替代方法可以處理大量內容

我已經閱讀了一些有關content.read() / content.write()但是找不到文檔。 任何幫助,將不勝感激。

您的問題可能實際上是Nutch由於其大小而沒有在抓取您的PDF或將其截斷。 確保已將nutch-site.xmlfile.content.limithttp.content.limit屬性設置為適當的值。 您可以將其設置為-1以接受任何文件大小。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM