[英]How can we extract only text from pdf using python excluding images and table?
Trying to extract text from a pdf that contains images and tables.尝试从包含图像和表格的 pdf 中提取文本。 Here, the tables and images need to be ignored.
在这里,表格和图像需要被忽略。 And only the extracted text data to be used for further analysis.
并且只有提取的文本数据用于进一步分析。 Is there a way this can be achieved with a neatly formatted text output?
有没有一种方法可以通过格式整齐的文本 output 来实现?
Use the library "PyMuPDF" for extracting the text.使用库“PyMuPDF”提取文本。 Go through it's documentation https://pymupdf.readthedocs.io/en/latest/
Go 通过它的文档https://pymupdf.readthedocs.io/en/latest/
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.