[英]How to split text read from a docx file with Page breaks using python3 docx
我有一个word文档(.docx文件),该文档由10页组成,每页上有1个段落,其中每个页面/段落都由分页符分隔。 我想阅读docx文件中的文本,并使用分页符将其拆分。
我可以使用python-docx库读取文本,但不确定如何使用分页符拆分文本。 我可以看到一个类似的问题,但是它的解决方案是使用旧的python-docx库提出的。
这是从docx文件读取文本的代码:
from docx import Document
paratextlist = Document("ex.docx")
docText = '\n'.join([
paragraph.text for paragraph in paratextlist.paragraphs
])
我认为可以使用正则表达式来搜索表格填充字符\\ f。
import re
pattern = re.compile(r"\f")
matches = pattern.finditer(text)
for match in matches:
print(f"Page break occurs at character {match.span()[0]}")
如果“ text”是您的文档字符串,则将返回字符串中每个分页符的位置。 然后,您可以使用这些索引对其进行分解。
可以使用Document对象对此进行调整,但是我不是100%知道如何使用。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.