![](/img/trans.png)
[英]JavaMail - Parsing email content, can't seem to get it to work! (Message.getContent())
[英]nutch content.getContent() can not return entire results
我是Apache Nutch的新手。
我正在使用Nutch爬網某些網站以獲取所有Web內容(包括HTML文件,PDF,圖像)。
我編寫了一個小的Java程序來從SEGEMENTs中提取Nutch結果,如下所示:
byte[] fileContents = content.getContent();
這里的問題是, getContent()
返回字節數組。 因此,如果PDF內容的大小大於70KB(大約70,000字節); getContent()
返回的數組不能保存整個文件內容,也無法獲取正確的PDF。
是否有其他替代方法可以處理大量內容
我已經閱讀了一些有關content.read()
/ content.write()
但是找不到文檔。 任何幫助,將不勝感激。
您的問題可能實際上是Nutch由於其大小而沒有在抓取您的PDF或將其截斷。 確保已將nutch-site.xml
的file.content.limit
和http.content.limit
屬性設置為適當的值。 您可以將其設置為-1
以接受任何文件大小。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.