繁体 English 中英

检查pdf提取文本质量的快速且无监督的方法是什么？

[英]What is a fast and unsupervised way of checking quality of pdf-extracted text?

原文 2009-09-21 09:11:21 6 3 java/ pdf/ text/ nlp

我正在制作一个有点大的语料库，文章数量达数万。 我目前正在使用PDFBox提取各种成功，我正在寻找一种方法来编程检查每个文件，看看提取是否适度成功。 我目前正在考虑在每个语言上运行一个拼写检查程序，但语言可能有所不同，我还不确定我正在处理哪种语言。 具有分数的自然语言检测也可能是一个想法。

哦，任何方法也必须与Java一起使用，快速且相对快速地集成。

3 个解决方案

尝试自动学习拼写检查。 这并不像听起来那么可怕：从包含您可能遇到的所有单词的大字典开始。 这可以来自几种语言。

扫描PDF时，允许一定数量的未知单词（比如说5％）。 如果这些单词中的任何一个经常重复（比如说5次），请将它们添加到字典中。 如果PDF包含超过5％的未知单词，则很可能无法处理。

扫描仪将随着时间的推移学习，如果需要，可以减少未知单词的数量。 如果那是太多的hazzle，一个非常大的词典也应该运作良好。

如果您没有字典，请手动处理几个文档并让扫描仪学习。 在十几个文件之后，您的新词典应该足够大以获得合理的水位。

您可以根据停用词列表运行语料库（搜索引擎忽略的最常用的词，如“和”和“the”），但是您显然需要首先为所有可能/可能的语言停用词列表。

当然，没有任何方法是完美的。

通常有两类文本提取问题：

1 - 没有提取任何内容。 这可能是因为您有扫描的文档或PDF中的某些内容无效。

通常很容易检测，你不应该需要复杂的代码来检查那些。

2 - 你得到了垃圾。 大多数时候因为PDF文件是奇怪的编码。 这可能是因为未正确声明自制编码，或者PDF作者可能需要PDF无法识别的字符（例如，在adobe字形列表中有一段时间缺少带有cedilla的土耳其语S：您无法创建正确编码的文件里面有它，所以你必须作弊才能在页面上看到它）。

我使用基于ngram的方法来检测基于提取的文本的PDF文件的语言（使用不同的技术，但想法是相同的）。 语言未被识别的文件通常是问题的好嫌疑人......

关于拼写检查我想如果你有多种语言，它会给你带来大量的误报！

在大文本文件中查找文本数据的快速方法是什么？

[英]What's a fast way to lookup text data in a large text file?

提取的 pdf 文本未显示在控制台中

[英]Extracted pdf text is not getting displayed in console

什么是快速分类的方法

[英]What is the fast way to sort

为什么使用PDF文本提取器（如PDFBox，itext）从PDF中提取的文本是分散和非结构化的？

[英]Why the text extracted from PDF using PDF text extractors for java such as PDFBox , itext are scatted and unstructured?

监视Java进程的快速可靠的方法是什么？

[英]What is the fast and reliable way to monitor a java process?

WEKA 中的有监督和无监督重采样有什么区别？

[英]What is the difference between supervised and unsupervised reampling in WEKA?

整理从PDF中提取的图像

[英]Organizing images extracted from a PDF

从推文文本中快速提取主题标签，用户提及和网址的方法？

[英]Fast way to extract hashtags, user mentions and urls from tweet text?

用Java编写数百万个小文本文件的快捷方法？

[英]Fast way to write millions of small text files in Java?

在活动开始时在循环中分配按钮的快速方法是什么？

[英]What's a fast way to assign buttons in a loop at the start of an activity?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 在大文本文件中查找文本数据的快速方法是什么？提取的 pdf 文本未显示在控制台中什么是快速分类的方法为什么使用PDF文本提取器（如PDFBox，itext）从PDF中提取的文本是分散和非结构化的？监视Java进程的快速可靠的方法是什么？ WEKA 中的有监督和无监督重采样有什么区别？整理从PDF中提取的图像从推文文本中快速提取主题标签，用户提及和网址的方法？用Java编写数百万个小文本文件的快捷方法？在活动开始时在循环中分配按钮的快速方法是什么？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM