繁体   English   中英

如何从.docx文件中的表中提取文本?

[英]How to extract text from a table in a .docx file?

我想使用python从.docx文件中的表中提取文本,以进行进一步分析。 我正在使用以下代码:

document = Document(path_to_your_docx)
tables = document.tables
for table in tables:
    for row in table.rows:
        for cell in row.cells:
            for paragraph in cell.paragraphs:
                print(paragraph.text)

但是,似乎该表的单元格中还有另一个“表”,因此我无法提取此部分(如所附图片所示)。 当我使用上面的代码时,我无法获取“是/否”文本。

我也尝试过像在表中一样遍历单元格,但是我收到错误消息,即该单元格没有表属性。 有什么建议吗?

桌子看起来像这样

创建表后的代码

谢谢。

我有解决此问题的方法。 我没有使用库python-docx从docx文件中提取文本,而是使用了docx2txt库(提取所有文本),然后只需要在字符串中查找特定单词。

text = docx2txt.process(file)

q = "Example1"
result = text[text.find(q)+len(q):].split()[0]

并为Column1上的每个值提供Column2中的“是”或“否”(在上面的示例中,它为Yes )。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM