python-如何在docx文件中识别分页符，并在每个页面中创建文本列表

Question

I have the following code to split each paragraph of a docx file and append to a list, but I need to identify the page breaks within the xml tree structure and create a list of text for each page. 我有以下代码来拆分docx文件的每个段落并追加到列表中，但是我需要确定xml树结构内的分页符并为每个页面创建一个文本列表。 Happy to provide the exact namespaces if it'd be helpful: 如果有帮助，很乐意提供确切的名称空间：

xml_content = document.read('word/document.xml')
tree = XML(xml_content)
aggText = []
#tree.getiterator method looks at previously defined word namespaces
for paragraph in tree.getiterator(PARA):
     texts = [node.text
             for node in paragraph.getiterator(TEXT)
             if node.text]
     if texts:
        aggText.append(''.join(texts))

I'm imagining that the updated loop will looking something like the below, but am unsure about locating the page break within the xml tree structure: 我正在想象更新后的循环将类似于以下内容，但是不确定如何在xml树结构中找到分页符：

aggText = []
for paragraph in tree.getiterator(PARA):
     texts = [node.text
             for node in paragraph.getiterator(TEXT)
             if node.text]
     #page breaks in xml read 'w:lastRenderedPageBreak'
     #below doesn't work, need a way to search raw xml for the page break identifier
     if texts.count(lastRenderedPageBreak) > 0:
        pages = aggText.append(''.join(texts))
        texts = []

Any ideas would be greatly appreciated! 任何想法将不胜感激！

Answer 1

Created a Word doc in MS Word 2011 on a Mac. 在Mac上的MS Word 2011中创建了Word文档。

Word doc saved as Word XML doc is 4 pages with the following content per page: 保存为Word XML文档的Word文档为4页，每页包含以下内容：

Page 1 第1页
Page 2 第2页
[empty on purpose] [故意空]
Page 4 第4页

The xml that is relevant is as follows: 相关的xml如下：

<w:t>Page1</w:t></w:r></w:p><w:p w14:paraId="7DC7FC1F" w14:textId="77777777" w:rsidR="00147F82" w:rsidRDefault="00147F82"><w:r><w:br w:type="page"/></w:r></w:p><w:p w14:paraId="7C202865" w14:textId="77777777" w:rsidR="00E3126A" w:rsidRDefault="00147F82"><w:r><w:lastRenderedPageBreak/><w:t>Page2</w:t></w:r></w:p><w:p w14:paraId="78BAA3B3" w14:textId="77777777" w:rsidR="00E3126A" w:rsidRDefault="00E3126A"><w:r><w:br w:type="page"/></w:r></w:p><w:p w14:paraId="2B26F15B" w14:textId="77777777" w:rsidR="00E3126A" w:rsidRDefault="00E3126A"><w:r><w:br w:type="page"/></w:r></w:p><w:p w14:paraId="1005F61F" w14:textId="77777777" w:rsidR="00C66DE3" w:rsidRDefault="00E3126A"><w:r><w:t>Page4</w:t>

Between each page is a <w:br w:type="page"/></w:r> tag. 在每个页面之间是一个<w:br w:type="page"/></w:r>标记。

Answer 2

The solution is as follows, I also updated the iterator function as getiterator() is now deprecated. 解决方案如下，由于不赞成使用getiterator（），因此我还更新了迭代器函数。

NAMESPACE = 
'{http://schemas.openxmlformats.org/wordprocessingml/2006/main}'
pages = []
PARA = NAMESPACE + 'p'
TEXT = NAMESPACE + 't'
PAGE = NAMESPACE + 'lastRenderedPageBreak'
aggText = ''
for paragraph in tree.iter(PARA):
     aggText += ''.join([node.text
             for node in paragraph.iter(TEXT)
             if node.text])
     if aggText and [node for node in paragraph.iter(PAGE):
        pages.append(aggText)
        aggText = ''
if aggText != '':
     pages.append(aggText)

python-如何在docx文件中识别分页符，并在每个页面中创建文本列表

问题描述

2 个解决方案

解决方案1
0 2018-08-08 02:31:10

解决方案2
0 2018-08-09 13:41:54

python-如何在docx文件中识别分页符，并在每个页面中创建文本列表

问题描述

2 个解决方案

解决方案1 0 2018-08-08 02:31:10

解决方案2 0 2018-08-09 13:41:54

解决方案1
0 2018-08-08 02:31:10

解决方案2
0 2018-08-09 13:41:54