繁体   English   中英

如何使用 pdfminer.six 提取 PDF 文件中的特定文本

[英]How to extract specific text on a PDF file with pdfminer.six

请我需要关于如何从这个 PDF 文件中提取“课程”和“成绩”下的文本的帮助

pdfminer 和 pdfminer.six 似乎是唯一适用于我的 PDF 的模块,我已尽我所能只提取我想要的文本,即“课程”和“成绩”的值。

我试过了...

text = extract_text("my_pdf.pdf") 打印(文本)

这样做的结果与原始文件的顺序并不完全相同,有些文本是垂直选取的,有些文本是水平选取的。 但是,我尝试使用 6 个字符、大写字母和字母数字(在我将 '\\n' 替换为 '' 并拆分新行之后)提取文本,结果成功。 但我的问题是等级。 请帮助有需要的朋友。 非常感谢。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM