簡體   English   中英

將Word 2007文件轉換為XML

[英]Convert the word 2007 file in to XML

我有一個Word 2007 .docx文件。 我通過在末尾添加擴展名“ .zip”來創建其zip文件。 當我提取zip文件時,它給了我幾個帶有xml文件的文件夾。 我想通過合並文件夾中存在的所有xml文件來獲得單個xml表,以便為此編寫xsl樣式表。 我不想打開“ .docx”文件並嘗試“另存為xml”。 有沒有辦法做到這一點? 還是我至少可以擁有該文檔的WordML文件? 如果是這樣的話。 先感謝您。

使用您選擇的工具(集),該工具集支持解壓縮,目錄樹遍歷和基於行的文本文件處理。 首先解壓縮您的Word文件,保留檔案的目錄結構。 接下來,將目錄遍歷器放到您解壓縮到的目錄中,處理所有.xml.rels文件; 從每行中刪除第一行(包含xml聲明,例如<?xml version="1.0" encoding="UTF-8" standalone="yes"?> ),並將每行依次連接到全局輸出xml文件,第一行應包含xml聲明本身。 確保您的工具遵守xml文件的字符集編碼(應為utf-8)。

Perl軟件包File :: FindArchive :: Zip可以很方便地完成此任務,但是您可以使用標准cli工具(zip / unzip,find,cat,sed)來完成您的工作。

您可能需要使用一些綜合的區分屬性來補充.rels文件的頂級Relationships元素,以避免id沖突-在給定Type屬性的情況下,大多數關系條目的適用性應該是唯一的,但是ms規范對於Office本身是否保證似乎有些含糊相同類型的所有關系項目上的唯一ID(或者我還沒有足夠詳細地閱讀規范...)。 請注意,相關的非XML文件(圖形,VBA代碼)的名稱顯示在[Content_Types].xml和關系文件中。

希望(仍然)能夠幫助,問候,卡登

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM