
[英]Error while trying to extract text from pdf file using pdfminer.six
[英]How to extract specific text on a PDF file with pdfminer.six
请我需要关于如何从这个 PDF 文件中提取“课程”和“成绩”下的文本的帮助
pdfminer 和 pdfminer.six 似乎是唯一适用于我的 PDF 的模块,我已尽我所能只提取我想要的文本,即“课程”和“成绩”的值。
我试过了...
text = extract_text("my_pdf.pdf") 打印(文本)
这样做的结果与原始文件的顺序并不完全相同,有些文本是垂直选取的,有些文本是水平选取的。 但是,我尝试使用 6 个字符、大写字母和字母数字(在我将 '\\n' 替换为 '' 并拆分新行之后)提取文本,结果成功。 但我的问题是等级。 请帮助有需要的朋友。 非常感谢。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.