[英]How to extract text from a table in a .docx file?
我想使用python从.docx文件中的表中提取文本,以进行进一步分析。 我正在使用以下代码:
document = Document(path_to_your_docx)
tables = document.tables
for table in tables:
for row in table.rows:
for cell in row.cells:
for paragraph in cell.paragraphs:
print(paragraph.text)
但是,似乎该表的单元格中还有另一个“表”,因此我无法提取此部分(如所附图片所示)。 当我使用上面的代码时,我无法获取“是/否”文本。
我也尝试过像在表中一样遍历单元格,但是我收到错误消息,即该单元格没有表属性。 有什么建议吗?
谢谢。
我有解决此问题的方法。 我没有使用库python-docx从docx文件中提取文本,而是使用了docx2txt库(提取所有文本),然后只需要在字符串中查找特定单词。
text = docx2txt.process(file)
q = "Example1"
result = text[text.find(q)+len(q):].split()[0]
并为Column1上的每个值提供Column2中的“是”或“否”(在上面的示例中,它为Yes )。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.