繁体   English   中英

在 Google Colab 上安装 Poppler

[英]Poppler Installation on Google Colab

我正在尝试使用 Google Colab 上的 pdf2image 模块将 pdf 转换为图像。 我已经下载了最新版本的 poppler 并安装了 poppler-utils。 在 convert_from_path() 中,我提到了 poppler 的 bin 目录的正确路径,但我仍然收到 FileNotFoundError 和 PDFInfoNotInstalled 错误。

请参阅随附的屏幕截图以获得更清晰的信息。 错误截图

AFAIK,Google colab 正在运行 Ubuntu 操作系统,您可以通过运行uname -a命令发现这一点。

如果您构建 poppler ,pdf* 二进制文件安装在/usr/bin中,并且 pdf2image 可以自动解析它们。

发现操作系统名称。

!uname -a;
Linux d9b9a62155f2 5.10.133+ #1 SMP Fri Aug 26 08:44:51 UTC 2022 x86_64 x86_64 x86_64 GNU/Linux
!cat requirements.txt
pdf2image

安装 python 依赖项

!pip install -r requirements.txt

为构建 poppler 安装一些依赖项

!apt update
!apt-get install libnss3 libnss3-dev
!apt-get install libcairo2-dev libjpeg-dev libgif-dev
!apt-get install cmake libblkid-dev e2fslibs-dev libboost-all-dev libaudit-dev

下载并提取 poppler 源代码。

!wget https://poppler.freedesktop.org/poppler-21.09.0.tar.xz;
!tar -xvf poppler-21.09.0.tar.xz;

编译并安装poppler。

!mkdir -p poppler-21.09.0/build && \
cd poppler-21.09.0 && \
cmake  -DCMAKE_BUILD_TYPE=Release   \
       -DCMAKE_INSTALL_PREFIX=/usr  \
       -DTESTDATADIR=$PWD/testfiles \
       -DENABLE_UNSTABLE_API_ABI_HEADERS=ON && \
make && \
make install

使用 PDF 文件

from pdf2image import convert_from_path, convert_from_bytes

images = convert_from_path('sample.pdf', poppler_path='/usr/bin/')

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM