nutch content.getContent（）無法返回整個結果

Question

我是Apache Nutch的新手。

我正在使用Nutch爬網某些網站以獲取所有Web內容（包括HTML文件，PDF，圖像）。

我編寫了一個小的Java程序來從SEGEMENTs中提取Nutch結果，如下所示：

byte[] fileContents = content.getContent();

這里的問題是， getContent()返回字節數組。 因此，如果PDF內容的大小大於70KB（大約70,000字節）； getContent()返回的數組不能保存整個文件內容，也無法獲取正確的PDF。

是否有其他替代方法可以處理大量內容

我已經閱讀了一些有關content.read() / content.write()但是找不到文檔。 任何幫助，將不勝感激。

Answer 1

您的問題可能實際上是Nutch由於其大小而沒有在抓取您的PDF或將其截斷。 確保已將nutch-site.xml的file.content.limit和http.content.limit屬性設置為適當的值。 您可以將其設置為-1以接受任何文件大小。