繁体   English   中英

将Word 2007文件转换为XML

[英]Convert the word 2007 file in to XML

我有一个Word 2007 .docx文件。 我通过在末尾添加扩展名“ .zip”来创建其zip文件。 当我提取zip文件时,它给了我几个带有xml文件的文件夹。 我想通过合并文件夹中存在的所有xml文件来获得单个xml表,以便为此编写xsl样式表。 我不想打开“ .docx”文件并尝试“另存为xml”。 有没有办法做到这一点? 还是我至少可以拥有该文档的WordML文件? 如果是这样的话。 先感谢您。

使用您选择的工具(集),该工具集支持解压缩,目录树遍历和基于行的文本文件处理。 首先解压缩您的Word文件,保留档案的目录结构。 接下来,将目录遍历器放到您解压缩到的目录中,处理所有.xml.rels文件; 从每行中删除第一行(包含xml声明,例如<?xml version="1.0" encoding="UTF-8" standalone="yes"?> ),并将每行依次连接到全局输出xml文件,第一行应包含xml声明本身。 确保您的工具遵守xml文件的字符集编码(应为utf-8)。

Perl软件包File :: FindArchive :: Zip可以很方便地完成此任务,但是您可以使用标准cli工具(zip / unzip,find,cat,sed)来完成您的工作。

您可能需要使用一些综合的区分属性来补充.rels文件的顶级Relationships元素,以避免id冲突-在给定Type属性的情况下,大多数关系条目的适用性应该是唯一的,但是ms规范对于Office本身是否保证似乎有些含糊相同类型的所有关系项目上的唯一ID(或者我还没有足够详细地阅读规范...)。 请注意,相关的非XML文件(图形,VBA代码)的名称显示在[Content_Types].xml和关系文件中。

希望(仍然)能够帮助,问候,卡登

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM