繁体   English   中英

从 .doc(不是 docx)中提取文本

[英]extract text from .doc (not docx)

我在 stackoverflow 和其他人中检查了 mose 问题和答案,有很多方法可以使用 python 打开和读取 .docx 文件而不是 doc

我已经检查了 python-docx 库,但它只支持 docx。

我想从 .doc 文件(不是 docx)中打开和提取文本。 请帮助我,因为我是 Python 新手

你可以使用Tika Python ,它是python的Apache Tika绑定。 另一个好的库是textract

我创建了库来从 doc 文件中提取文本。 它适用于 C 和 Python https://github.com/uvoteam/libdoc使用示例:

import extract_doc

with open('./test.doc', 'rb') as myfile:
      data = bytearray(myfile.read())
      print(extract_doc.extract_doc_text(data, len(data)))

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM