[英]How to extract images from PDF or Word, together with the text around images?
我发现有一些库可以从 PDF 或 word 中提取图像,例如 docx2txt 和 pdfimages。 但是如何获取图像周围的内容(例如图像下方可能有标题)? 或者获取每张图片的页码?
其他一些工具如 PyPDF2 和 minecart 可以逐页提取图像。 但是,我无法成功运行这些代码。
有没有什么好的方法来获取图像的一些信息? (来自从 docx2txt 或 pdfimages 获得的图像,或另一种提取带有信息的图像的方法)
我找到了doc2txt的代码,它只是解析docx文件的xml。 所以这实际上是一项非常简单的任务..
参考: doc2txt
docx2python
将图像拉入文件夹,并在提取的文本中留下-----image1.png----
标记。 这可能会让你接近你想去的地方。
几个月前,我重新编程了 docx2python 以从 docx 文件中再现结构化(具有级别)的 xml 格式文件,这在许多文件上都运行良好。
据我所知,一个段落包含多个运行,每个运行仅包含一个文本,有时包含图像。 您可以阅读此文档以了解详细信息。 https://docs.microsoft.com/en-us/dotnet/api/documentformat.openxml.wordprocessing.paragraph?view=openxml-2.8.1 。
docx2python 支持提取带有文本周围的图像。 您使用 docx2python 阅读段落,而----media/imagen----
显示在您的文本中,这是一个图像占位符。 如果你设置了extract_image=True
你就可以到达这个图像。 好吧,您将在 pagaraph 文本和图像文件列表中获得您的图像。 随心搭配。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.