繁体   English   中英

自动从pdf中提取许多文件的文本

[英]automatically extract text from pdf for many files

我大约有10,000个pdf文件(conf论文),我需要从这些论文的某些部分(如实验部分)中提取文本并保存在文件中。 有谁知道一个Java工具或某些Python工具可以帮助我做到这一点?

提前致谢

阿育

在发布之前,您是否研究过您的问题? 我刚刚在Google上搜索并找到了这个Apache项目: http : //pdfbox.apache.org/

对于Java:看看iText

对于python,我将使用PDFMiner

由于这些都是学术论文,因此您还应该真正查看lapdftext

LA-PDFText是一个用于从基于PDF的研究文章中提取准确文本的系统(以及一个可以在需要时提高性能的界面)。 该系统是开源的,并提供了简单的基线功能,可使用开发人员可以自定义的规则从主要研究文章中提取文本。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM