簡體   English   中英

Apache Solr:數據導入處理程序異常 - 如何跳過零字節文件

[英]Apache Solr : Data import handler exception - how to skip zero byte files

在瀏覽 Solr 日志時,我發現某些文檔的數據導入錯誤。 這里是:

Exception while processing: file document :
null:org.apache.solr.handler.dataimport.DataImportHandlerException: Unable
to read content Processing Document # 7866
        at
org.apache.solr.handler.dataimport.DataImportHandlerException.wrapAndThrow(DataImportHandlerException.java:69)
        at
org.apache.solr.handler.dataimport.TikaEntityProcessor.nextRow(TikaEntityProcessor.java:171)
        at
org.apache.solr.handler.dataimport.EntityProcessorWrapper.nextRow(EntityProcessorWrapper.java:267)
        at
org.apache.solr.handler.dataimport.DocBuilder.buildDocument(DocBuilder.java:476)
        at
org.apache.solr.handler.dataimport.DocBuilder.buildDocument(DocBuilder.java:517)
        at
org.apache.solr.handler.dataimport.DocBuilder.buildDocument(DocBuilder.java:415)
        at
org.apache.solr.handler.dataimport.DocBuilder.doFullDump(DocBuilder.java:330)
        at
org.apache.solr.handler.dataimport.DocBuilder.execute(DocBuilder.java:233)
        at
org.apache.solr.handler.dataimport.DataImporter.doFullImport(DataImporter.java:424)
        at
org.apache.solr.handler.dataimport.DataImporter.runCmd(DataImporter.java:483)
        at
org.apache.solr.handler.dataimport.DataImporter.lambda$runAsync$0(DataImporter.java:466)
        at java.lang.Thread.run(Unknown Source)
Caused by: org.apache.tika.exception.ZeroByteFileException: InputStream must
have > 0 bytes
        at org.apache.tika.parser.AutoDetectParser.parse(AutoDetectParser.java:122)
        at
org.apache.solr.handler.dataimport.TikaEntityProcessor.nextRow(TikaEntityProcessor.java:165)

如何忽略 ZeroByteFileException? 我可以在dataimport.config中定義任何設置嗎?

謝謝!

有一個屬性可以根據您的情況進行配置。

您可以添加ignoreTikaException=true

ignoreTikaException

如果為 true,將跳過處理過程中發現的異常。 但是,任何可用的元數據都將被編入索引。

Example: ignoreTikaException=true

有關詳細信息,請參閱 solr 文檔。 Solr 文檔

onError

默認情況下,如果 TikaEntityProcessor 發現一個生成錯誤的文檔,它將停止處理文檔。 如果您將onError定義為"skip" ,則 TikaEntityProcessor 將跳過處理失敗的文檔並記錄一條文檔被跳過的消息。

我識別並刪除了損壞的文件(或)零 kb 文件。 在該問題得到解決並且 Solr 開始處理剩余文件之后。

問候, 拉維庫馬爾

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM