[英]extract text from .doc (not docx)
我在 stackoverflow 和其他人中检查了 mose 问题和答案,有很多方法可以使用 python 打开和读取 .docx 文件而不是 doc
我已经检查了 python-docx 库,但它只支持 docx。
我想从 .doc 文件(不是 docx)中打开和提取文本。 请帮助我,因为我是 Python 新手
你可以使用Tika Python ,它是python的Apache Tika绑定。 另一个好的库是textract 。
我创建了库来从 doc 文件中提取文本。 它适用于 C 和 Python https://github.com/uvoteam/libdoc使用示例:
import extract_doc
with open('./test.doc', 'rb') as myfile:
data = bytearray(myfile.read())
print(extract_doc.extract_doc_text(data, len(data)))
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.