簡體   English   中英

Python textract ImportError

[英]Python textract ImportError

我已經開始使用Python庫textract來解析PowerPoint( .pptx),Word文檔( .docx)和文本文件(* .txt)中的文本。 我寫了一個簡單的腳本來測試它。

# Python textract test script
import textract
textract.process("H:\My Documents\Test.docx")

當我在命令行或空閑狀態下運行它時,我會得到回溯,最后幾行是:

文件:“ C:... \\ textract \\ parsers \\ docx_parser.py”,導入docx2txt中的第1行ImportError:沒有名為docx2txt的模塊

我正在使用從https://pypi.python.org/pypi/textract下載的1.5.0版本。 我不知道為什么它不包含任何依賴項。 我是否需要安裝docx2txt及其后續依賴項? 為什么textract軟件包不包含我需要的一切?

我建議使用pip install xxx來安裝模塊。 它將安裝在通常由python查找的路徑中。 它也應該照顧依賴性。

如果您是手動安裝或只是將其解壓縮到晚餐文件夾,則正確設置路徑,如此處所述如何在Windows 7中添加至pythonpath? Python-Linux中的PYTHONPATH

如果您認為設置正確,則發布其值,密碼等。

textract不會自動為其支持的所有文件類型安裝依賴項。 您可以有選擇地安裝您感興趣的產品。

盡管這並不像人們想象的那么優雅,但我認為這是合適的設計選擇。 Python沒有按需安裝依賴項的能力,因此唯一的選擇是textract安裝所有十幾個或更多可能的依賴項,這往往會使您的Python環境膨脹。

因此,正如Kashyap所提到的,在這種情況下,適當的操作是:

pip install python-docx

對於可能需要的任何其他文件類型依賴關系,也是如此。

這對我有用

打開終端,然后按如下所示鍵入它們,

python -m venv env 
source ./env/bin/activate
sudo apt update
sudo apt install python-pip && pip install --upgrade pip
sudo apt install python-dev libxml2-dev libxslt1-dev antiword unrtf poppler-utils pstotext tesseract-ocr flac ffmpeg lame libmad0 libsox-fmt-mp3 sox libjpeg-dev swig
pip install textract

如果您遇到任何錯誤,請在下面嘗試

pip install https://pypi.python.org/packages/ce/c7/ab6cd0d00ddf8dc3b537cfb922f3f049f8018f38c88d71fd164f3acb8416/SpeechRecognition-3.6.3-py2.py3-none-any.whl
sudo apt install libpulse-dev
pip install textract

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM