如何使用python3 docx使用分页符拆分从docx文件读取的文本

Question

我有一个word文档（.docx文件），该文档由10页组成，每页上有1个段落，其中每个页面/段落都由分页符分隔。 我想阅读docx文件中的文本，并使用分页符将其拆分。

我可以使用python-docx库读取文本，但不确定如何使用分页符拆分文本。 我可以看到一个类似的问题，但是它的解决方案是使用旧的python-docx库提出的。

这是从docx文件读取文本的代码：

from docx import Document

paratextlist = Document("ex.docx")
docText = '\n'.join([
    paragraph.text for paragraph in paratextlist.paragraphs
])

Answer 1

我认为可以使用正则表达式来搜索表格填充字符\\ f。

import re

pattern = re.compile(r"\f")
matches = pattern.finditer(text)
for match in matches:
    print(f"Page break occurs at character {match.span()[0]}")

如果“ text”是您的文档字符串，则将返回字符串中每个分页符的位置。 然后，您可以使用这些索引对其进行分解。

可以使用Document对象对此进行调整，但是我不是100％知道如何使用。

如何使用python3 docx使用分页符拆分从docx文件读取的文本

问题描述

1 个解决方案

解决方案1
0 2018-07-26 16:00:06

如何使用python3 docx使用分页符拆分从docx文件读取的文本

问题描述

1 个解决方案

解决方案1 0 2018-07-26 16:00:06

解决方案1
0 2018-07-26 16:00:06