如何使用Python 3（OSx）在Anaconda上安装Textract？

Question

我正在尝试将PDF文件转换为python 3可读的文本。这是为了在wordcloud中找到文件中最常见的单词。

我已经尝试使用pip install textract，在下面收到了相同的错误消息。 我现在正在尝试conda安装，仍然收到相同的错误消息。

! pip install PyPDF2 # convert text-based PDF file to text readable by python
! conda config --add channels conda-forge
! conda install textract # convert non-trivial, scanned PDF file into text readable by python
! pip install nltk # clean and convert phrases into keywords
! pip install regex # find keywords

import PyPDF2
import textract
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

print ("Libraries have been imported.")

我收到的错误是：“ ModuleNotFoundError：没有名为'textract'的模块”。

Answer 1

这可能是一种解决方法。

1.卸载Anaconda，然后重新安装。

2.不要在anaconda中创建任何python 2.7环境，并在基本anaconda命令提示符下使用pip以及所有其他依赖项重新安装textract。

3.尝试导入textract

要么

1.打开终端

python -m venv env 
source ./env/bin/activate
sudo apt update
sudo apt install python-pip && pip install --upgrade pip
sudo apt install python-dev libxml2-dev libxslt1-dev antiword unrtf poppler-utils pstotext tesseract-ocr flac ffmpeg lame libmad0 libsox-fmt-mp3 sox libjpeg-dev swig
pip install textract

如果您遇到其他错误：

pip install https://pypi.python.org/packages/ce/c7/ab6cd0d00ddf8dc3b537cfb922f3f049f8018f38c88d71fd164f3acb8416/SpeechRecognition-3.6.3-py2.py3-none-any.whl
sudo apt install libpulse-dev
pip install textract

并尝试导入textract

看这里

如何使用Python 3（OSx）在Anaconda上安装Textract？

问题描述

1 个解决方案

解决方案1
0 2019-08-08 08:26:55

如何使用Python 3（OSx）在Anaconda上安装Textract？

问题描述

1 个解决方案

解决方案1 0 2019-08-08 08:26:55

解决方案1
0 2019-08-08 08:26:55