繁体   English   中英

如何使用python3 docx使用分页符拆分从docx文件读取的文本

[英]How to split text read from a docx file with Page breaks using python3 docx

我有一个word文档(.docx文件),该文档由10页组成,每页上有1个段落,其中每个页面/段落都由分页符分隔。 我想阅读docx文件中的文本,并使用分页符将其拆分。

我可以使用python-docx库读取文本,但不确定如何使用分页符拆分文本。 我可以看到一个类似的问题,但是它的解决方案是使用旧的python-docx库提出的。

这是从docx文件读取文本的代码:

from docx import Document

paratextlist = Document("ex.docx")
docText = '\n'.join([
    paragraph.text for paragraph in paratextlist.paragraphs
])

我认为可以使用正则表达式来搜索表格填充字符\\ f。

import re

pattern = re.compile(r"\f")
matches = pattern.finditer(text)
for match in matches:
    print(f"Page break occurs at character {match.span()[0]}")

如果“ text”是您的文档字符串,则将返回字符串中每个分页符的位置。 然后,您可以使用这些索引对其进行分解。

可以使用Document对象对此进行调整,但是我不是100%知道如何使用。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM