繁体 English 中英

自动从pdf中提取许多文件的文本

[英]automatically extract text from pdf for many files

原文 2013-04-22 17:20:52 1 3 java/ python/ pdf/ text

我大约有10,000个pdf文件（conf论文），我需要从这些论文的某些部分（如实验部分）中提取文本并保存在文件中。 有谁知道一个Java工具或某些Python工具可以帮助我做到这一点？

提前致谢

阿育

3 个解决方案

在发布之前，您是否研究过您的问题？ 我刚刚在Google上搜索并找到了这个Apache项目： http : //pdfbox.apache.org/

对于Java：看看iText

对于python，我将使用PDFMiner

由于这些都是学术论文，因此您还应该真正查看lapdftext

LA-PDFText是一个用于从基于PDF的研究文章中提取准确文本的系统（以及一个可以在需要时提高性能的界面）。 该系统是开源的，并提供了简单的基线功能，可使用开发人员可以自定义的规则从主要研究文章中提取文本。

从pdf文件中提取文本

[英]extract text from pdf files

从Java的Office和PDF文件中提取文本

[英]Extract text from Office and PDF files in Java

从多个 PDF 文件中提取特定字段并写入文本文件

[英]Extract specific field from multiple PDF files and write to text file

从pdf文件中提取文本

[英]extract text from a pdf file

从书签中提取PDF中的文本

[英]Extract text from PDF at bookmark

如何在android中使用itextpdf从马拉地语、印地语pdf文件中提取文本

[英]How to extract text from marathi, hindi pdf files using itextpdf in android

从大文件中提取文本

[英]Extract text from large files

从PDF提取文本（Google App引擎）

[英]Extract text from PDF (google app engine)

通过pdfbox从Linearized PDF中提取文本

[英]Extract text from Linearized PDF by pdfbox

将格式文本从pdf提取为html

[英]extract formatted text from pdf to html

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 从pdf文件中提取文本从Java的Office和PDF文件中提取文本从多个 PDF 文件中提取特定字段并写入文本文件从pdf文件中提取文本从书签中提取PDF中的文本如何在android中使用itextpdf从马拉地语、印地语pdf文件中提取文本从大文件中提取文本从PDF提取文本（Google App引擎）通过pdfbox从Linearized PDF中提取文本将格式文本从pdf提取为html

相关标签

自动从pdf中提取许多文件的文本

问题描述

3 个解决方案

解决方案1
2 2013-04-22 17:25:41

解决方案2
1 已采纳 2013-04-22 17:27:47

解决方案3
0 2013-11-15 02:28:42

自动从pdf中提取许多文件的文本

问题描述

3 个解决方案

解决方案1 2 2013-04-22 17:25:41

解决方案2 1 已采纳 2013-04-22 17:27:47

解决方案3 0 2013-11-15 02:28:42

解决方案1
2 2013-04-22 17:25:41

解决方案2
1 已采纳 2013-04-22 17:27:47

解决方案3
0 2013-11-15 02:28:42