簡體   English   中英

如何使用Apache POI讀取Java中的.DOC文件以將圖像與文本分開?

[英]How do I use Apache POI to read a .DOC file in Java to separate images from text?

我需要從Java中讀取包含文本和圖像的Word .doc文件。 我需要識別圖像和文本並將它們分成2個文件。

我最近聽說過“Apache POI”。 如何使用Apache POI讀取Word .doc文件?

apache網站上的示例和示例代碼非常好。 我建議你從那里開始。

http://poi.apache.org/hwpf/quick-guide.html

要獲取特定的文本位,首先要創建一個org.apache.poi.hwpf.HWPFDocument。 使用getRange()獲取范圍,然后從中獲取段落。 然后,您可以獲得文本和其他屬性。

這里是提取圖像的示例。 這里是撰寫本文時的最新修訂版。

當然還有Javadocs

請注意,根據POI網站,

HWPF仍處於早期開發階段。

它不是免費的(甚至便宜!)但是Aspose.Words應該能夠做到這一點。 他們的評估下載將讓你玩小文件。

目標文件也必須是文檔嗎? 您可以在Office中打開文檔並將其另存為HTML。 然后分離變得微不足道。 RTF也是一個可行的選擇,但我不能推薦一個好的RTF解析器。

編輯說:我只記得另一個可能的解決方案: 雅各布 ,但你需要在同一台機器上運行Office的實例。 它是Java COM Bridge的縮寫,它允許您調用Office中的COM庫來操作文檔。 我敢肯定它並不像聽起來那么可怕!

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM