[英]extract text from .doc (not docx)
我在 stackoverflow 和其他人中檢查了 mose 問題和答案,有很多方法可以使用 python 打開和讀取 .docx 文件而不是 doc
我已經檢查了 python-docx 庫,但它只支持 docx。
我想從 .doc 文件(不是 docx)中打開和提取文本。 請幫助我,因為我是 Python 新手
你可以使用Tika Python ,它是python的Apache Tika綁定。 另一個好的庫是textract 。
我創建了庫來從 doc 文件中提取文本。 它適用於 C 和 Python https://github.com/uvoteam/libdoc使用示例:
import extract_doc
with open('./test.doc', 'rb') as myfile:
data = bytearray(myfile.read())
print(extract_doc.extract_doc_text(data, len(data)))
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.