![](/img/trans.png)
[英]Regular expressions search in LibreOffice writer documents using pyuno extremely greedy
[英]PyUno file types conversion for writer
所有,
我正在修改python脚本(使用PyUno),该脚本将读取MSword文档(.docx)并将其转换为xml。 我有一个脚本可以执行我在这里需要的一切,除了它将从doc转换为pdf之外。 我找不到XML可接受的导出格式的列表。
任何帮助将不胜感激。
谢谢!
:BP:
这两个FilterName值产生不同的平面XML格式:
OpenDocument Text Flat XML
MS Word 2003 XML
我通过执行以下操作找到了这些名称:
请记住,.odt和.docx也是基于XML的格式,只是将它们压缩而不是压缩。 通过执行以下操作,可以解析这些格式的文件:
import os
import xml.dom.minidom
import xml.parsers.expat
import zipfile
filepath = "in.odt" # or "in.docx"
tempDir = "path/to/temp/dir/" # change according to your system
with zipfile.ZipFile(filepath, 'r') as zipper:
zipper.extractall(tempDir)
try:
dom = xml.dom.minidom.parse(os.path.join(tempDir, "content.xml"))
except xml.parsers.expat.ExpatError:
# handle exception
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.