繁体   English   中英

如何使用Apache POI读取Java中的.DOC文件以将图像与文本分开?

[英]How do I use Apache POI to read a .DOC file in Java to separate images from text?

我需要从Java中读取包含文本和图像的Word .doc文件。 我需要识别图像和文本并将它们分成2个文件。

我最近听说过“Apache POI”。 如何使用Apache POI读取Word .doc文件?

apache网站上的示例和示例代码非常好。 我建议你从那里开始。

http://poi.apache.org/hwpf/quick-guide.html

要获取特定的文本位,首先要创建一个org.apache.poi.hwpf.HWPFDocument。 使用getRange()获取范围,然后从中获取段落。 然后,您可以获得文本和其他属性。

这里是提取图像的示例。 这里是撰写本文时的最新修订版。

当然还有Javadocs

请注意,根据POI网站,

HWPF仍处于早期开发阶段。

它不是免费的(甚至便宜!)但是Aspose.Words应该能够做到这一点。 他们的评估下载将让你玩小文件。

目标文件也必须是文档吗? 您可以在Office中打开文档并将其另存为HTML。 然后分离变得微不足道。 RTF也是一个可行的选择,但我不能推荐一个好的RTF解析器。

编辑说:我只记得另一个可能的解决方案: 雅各布 ,但你需要在同一台机器上运行Office的实例。 它是Java COM Bridge的缩写,它允许您调用Office中的COM库来操作文档。 我敢肯定它并不像听起来那么可怕!

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM