簡體   English   中英

從 .doc(不是 docx)中提取文本

[英]extract text from .doc (not docx)

我在 stackoverflow 和其他人中檢查了 mose 問題和答案,有很多方法可以使用 python 打開和讀取 .docx 文件而不是 doc

我已經檢查了 python-docx 庫,但它只支持 docx。

我想從 .doc 文件(不是 docx)中打開和提取文本。 請幫助我,因為我是 Python 新手

你可以使用Tika Python ,它是python的Apache Tika綁定。 另一個好的庫是textract

我創建了庫來從 doc 文件中提取文本。 它適用於 C 和 Python https://github.com/uvoteam/libdoc使用示例:

import extract_doc

with open('./test.doc', 'rb') as myfile:
      data = bytearray(myfile.read())
      print(extract_doc.extract_doc_text(data, len(data)))

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM