繁体   English   中英

检查pdf提取文本质量的快速且无监督的方法是什么?

[英]What is a fast and unsupervised way of checking quality of pdf-extracted text?

我正在制作一个有点大的语料库,文章数量达数万。 我目前正在使用PDFBox提取各种成功,我正在寻找一种方法来编程检查每个文件,看看提取是否适度成功。 我目前正在考虑在每个语言上运行一个拼写检查程序,但语言可能有所不同,我还不确定我正在处理哪种语言。 具有分数的自然语言检测也可能是一个想法。

哦,任何方法也必须与Java一起使用,快速且相对快速地集成。

尝试自动学习拼写检查。 这并不像听起来那么可怕:从包含您可能遇到的所有单词的大字典开始。 这可以来自几种语言。

扫描PDF时,允许一定数量的未知单词(比如说5%)。 如果这些单词中的任何一个经常重复(比如说5次),请将它们添加到字典中。 如果PDF包含超过5%的未知单词,则很可能无法处理。

扫描仪将随着时间的推移学习,如果需要,可以减少未知单词的数量。 如果那是太多的hazzle,一个非常大的词典也应该运作良好。

如果您没有字典,请手动处理几个文档并让扫描仪学习。 在十几个文件之后,您的新词典应该足够大以获得合理的水位。

您可以根据停用词列表运行语料库(搜索引擎忽略的最常用的词,如“和”和“the”),但是您显然需要首先为所有可能/可能的语言停用词列表。

当然,没有任何方法是完美的。

通常有两类文本提取问题:

1 - 没有提取任何内容。 这可能是因为您有扫描的文档或PDF中的某些内容无效。

通常很容易检测,你不应该需要复杂的代码来检查那些。

2 - 你得到了垃圾。 大多数时候因为PDF文件是奇怪的编码。 这可能是因为未正确声明自制编码,或者PDF作者可能需要PDF无法识别的字符(例如,在adobe字形列表中有一段时间缺少带有cedilla的土耳其语S:您无法创建正确编码的文件里面有它,所以你必须作弊才能在页面上看到它)。

我使用基于ngram的方法来检测基于提取的文本的PDF文件的语言(使用不同的技术,但想法是相同的)。 语言未被识别的文件通常是问题的好嫌疑人......

关于拼写检查我想如果你有多种语言,它会给你带来大量的误报!

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM