简体   繁体   English

我们如何使用 python 仅从 pdf 中提取文本,不包括图像和表格?

[英]How can we extract only text from pdf using python excluding images and table?

Trying to extract text from a pdf that contains images and tables.尝试从包含图像和表格的 pdf 中提取文本。 Here, the tables and images need to be ignored.在这里,表格和图像需要被忽略。 And only the extracted text data to be used for further analysis.并且只有提取的文本数据用于进一步分析。 Is there a way this can be achieved with a neatly formatted text output?有没有一种方法可以通过格式整齐的文本 output 来实现?

Use the library "PyMuPDF" for extracting the text.使用库“PyMuPDF”提取文本。 Go through it's documentation https://pymupdf.readthedocs.io/en/latest/ Go 通过它的文档https://pymupdf.readthedocs.io/en/latest/

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 我们如何使用python从pdf中提取特定值? - How can we extract the specific value from pdf using python? 如何使用python仅从PDF文件中提取特定文本 - How to extract only specific text from PDF file using python 如何使用 Python 从 PDF 中提取表格作为文本? - How to extract table as text from the PDF using Python? 如何使用 Pypdf2 从 Pdf 中提取文本,不包括图表和表格中的文本内容 - How to extract text from Pdf using Pypdf2 excluding the text content from Charts and Tables 使用 Python,如何从 PDF 中提取文本和图像 + 从 output txt 文件中提取颜色字符串和数字 - Using Python, how to extract text and images from PDF + color strings and numbers from the output txt file 我如何使用 python 从 PDF 中提取文本、表格和图像 - How do i extract text, tables and images from PDF using python 使用 Python 仅从 PDF 中提取特定文本 - Extract only specific text from PDF using Python 如何使用pytesseract从pdf文件中的图像中提取文本 - how to extract text from images in a pdf file using pytesseract 如何使用Python中的poppler库从pdf中提取图像? - How to extract images from a pdf using the poppler library in Python? 如何使用 python 从 pdf 文件中提取图像、视频和音频 - How to extract images, video and audio from a pdf file using python
 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM