繁体   English   中英

Python textract ImportError

[英]Python textract ImportError

我已经开始使用Python库textract来解析PowerPoint( .pptx),Word文档( .docx)和文本文件(* .txt)中的文本。 我写了一个简单的脚本来测试它。

# Python textract test script
import textract
textract.process("H:\My Documents\Test.docx")

当我在命令行或空闲状态下运行它时,我会得到回溯,最后几行是:

文件:“ C:... \\ textract \\ parsers \\ docx_parser.py”,导入docx2txt中的第1行ImportError:没有名为docx2txt的模块

我正在使用从https://pypi.python.org/pypi/textract下载的1.5.0版本。 我不知道为什么它不包含任何依赖项。 我是否需要安装docx2txt及其后续依赖项? 为什么textract软件包不包含我需要的一切?

我建议使用pip install xxx来安装模块。 它将安装在通常由python查找的路径中。 它也应该照顾依赖性。

如果您是手动安装或只是将其解压缩到晚餐文件夹,则正确设置路径,如此处所述如何在Windows 7中添加至pythonpath? Python-Linux中的PYTHONPATH

如果您认为设置正确,则发布其值,密码等。

textract不会自动为其支持的所有文件类型安装依赖项。 您可以有选择地安装您感兴趣的产品。

尽管这并不像人们想象的那么优雅,但我认为这是合适的设计选择。 Python没有按需安装依赖项的能力,因此唯一的选择是textract安装所有十几个或更多可能的依赖项,这往往会使您的Python环境膨胀。

因此,正如Kashyap所提到的,在这种情况下,适当的操作是:

pip install python-docx

对于可能需要的任何其他文件类型依赖关系,也是如此。

这对我有用

打开终端,然后按如下所示键入它们,

python -m venv env 
source ./env/bin/activate
sudo apt update
sudo apt install python-pip && pip install --upgrade pip
sudo apt install python-dev libxml2-dev libxslt1-dev antiword unrtf poppler-utils pstotext tesseract-ocr flac ffmpeg lame libmad0 libsox-fmt-mp3 sox libjpeg-dev swig
pip install textract

如果您遇到任何错误,请在下面尝试

pip install https://pypi.python.org/packages/ce/c7/ab6cd0d00ddf8dc3b537cfb922f3f049f8018f38c88d71fd164f3acb8416/SpeechRecognition-3.6.3-py2.py3-none-any.whl
sudo apt install libpulse-dev
pip install textract

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM