![](/img/trans.png)
[英]How can I extract right-to-left text from .doc and .docx files using Apache POI in java?
[英]How do I use Apache POI to read a .DOC file in Java to separate images from text?
我需要从Java中读取包含文本和图像的Word .doc文件。 我需要识别图像和文本并将它们分成2个文件。
我最近听说过“Apache POI”。 如何使用Apache POI读取Word .doc文件?
apache网站上的示例和示例代码非常好。 我建议你从那里开始。
http://poi.apache.org/hwpf/quick-guide.html
要获取特定的文本位,首先要创建一个org.apache.poi.hwpf.HWPFDocument。 使用getRange()获取范围,然后从中获取段落。 然后,您可以获得文本和其他属性。
当然还有Javadocs
请注意,根据POI网站,
HWPF仍处于早期开发阶段。
它不是免费的(甚至便宜!)但是Aspose.Words应该能够做到这一点。 他们的评估下载将让你玩小文件。
目标文件也必须是文档吗? 您可以在Office中打开文档并将其另存为HTML。 然后分离变得微不足道。 RTF也是一个可行的选择,但我不能推荐一个好的RTF解析器。
编辑说:我只记得另一个可能的解决方案: 雅各布 ,但你需要在同一台机器上运行Office的实例。 它是Java COM Bridge的缩写,它允许您调用Office中的COM库来操作文档。 我敢肯定它并不像听起来那么可怕!
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.