繁体   English   中英

蒂卡拉链炸弹异常

[英]Tika zip bomb exception

我们正在使用Tika 1.1从XLSM文件中提取内容。 我们有两个服务器实例。 在其中一台服务器上,文件内容已正确提取。 但是在另一台服务器上,我得到了同一文件的zip炸弹异常。 我们在两种情况下都使用相同的tika独立jar。 但我无法确定问题所在。

不确定SAX配置是否在运行时产生了问题(我不太熟悉SAX)。 如何调试此问题?

原因:org.apache.tika.exception.TikaException:检测到Zip炸弹! 在org.apache.tika.sax.SecureContentHandler.throwIfCauseOf(SecureContentHandler.java:192)在org.apache.tika.parser.AutoDetectParser.parse(AutoDetectParser.java:123)在org.apache.tika.Tika.Tika.parseToString(Tika .java:380),位于com.ptc.search.solr.contentReader.contentExtraction.TikaExtractor.getContent(TikaExtractor.java:36)... 45更多原因:org.apache.tika.sax.SecureContentHandler $ SecureSAXException:疑似zip炸弹:878级XML元素嵌套在org.apache.tika.sax.ContentHandlerDecorator.startElement(ContentHandlerDecorator.java:126)的org.apache.tika.sax.ContentHandlerDecorator.startElement(ContentHandlerDecorator.java:126)的org.apache.tika.sax.SecureContentHandler.startElement(SecureContentHandler.java:234) org.apache.tika.sax.ContentHandlerDecorator.startElement(ContentHandlerDecorator.java:126)上的.tika.sax.ContentHandlerDecorator.startElement(ContentHandlerDecorator.java:126)org.apache.tika.tika.sax.ContentHandlerDecorator.startElement(ContentHandlerDecorator.java :126),位于org.apache.tika.sax.SafeContentHandler.startElement(SafeContentHandler.ja va:264)org.apache.tika.sax.XHTMLContentHandler.startElement(XHTMLContentHandler.java:274)org.apache.tika.sax.XHTMLContentHandler.java:244)org.apache.tika.sax.XHTMLContentHandler.startElement(XHTMLContentHandler.java:274)org.apache.tika.sax org.apache.tika.parser.microsoft.ooxml.XSSFExcelExtractorDecorator.extractHeaderFooter(XSSFExcelExtractorDecorator.java:145)的.XHTMLContentHandler.element(XHTMLContentHandler.java:313)在org.apache.tika.parser.microsoft.ooxml.XSSFExcelBuilder (XSSFExcelExtractorDecorator.java:129)在org.apache.tika.parser.microsoft.ooxml.AbstractOOXMLExtractor.getXHTML(AbstractOOXMLExtractor.java:104)在org.apache.tika.parser.microsoft.ooxml.OOXMLExtractorFactory.parse(OOXMLExtractorFactory.java :110)位于org.apache.tika.parser.microsoft.ooxml.OOXMLParser.parse(OOXMLParser.java:82),位于org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:242)。位于org.apache.tika.parser.AutoDetectParser.parse(AutoD的tika.parser.CompositeParser.parse(CompositeParser.java:242) etectParser.java:120)...还有47个

调试tika代码后,我意识到我已经在WriteOutContentHandler上设置了maxStringLength,并且在达到限制后代码抛出zip bomb错误。 正确的错误消息可能会更快地有所帮助。 无论如何,感谢大家的投入。 我们一定会计划升级到最新版本。

我们是否应该在Jira中创建缺陷以引发正确的错误消息?

我解决了这个安装问题

emerge app-office/unoconv

和执行

$ unoconv -fpdf file.xlsm

它将在文件的同一目录中创建一个.pdf文件,然后您可以将其发送到Tika。

我的服务器是Gentoo,然后适应您的dist。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM