繁体   English   中英

检测图像文件的内容:在图片中查找扫描的文档

[英]Detect the contents of an image file: Find a scanned document in amongst pictures

我那里有很多文件夹,其中包含大量图像文件。 有时,扫描的文档图像会偶然地落在文件夹中,并且没有人目视扫描该文件夹,这些图像仍然未被检测到,但是如果发布到错误的位置,则可能导致问题。

由于可以扫描它们,因为任何文件类型和大小都在真实图像范围内,因此很难从元数据中检测到它们。

有谁知道一种从真实图像中检测扫描文档的方法-是工具还是程序方法?

我建议您看一下Accord框架: http : //accord-framework.net/ 查看计算机视觉功能。 我认为这应该取决于您正在描述的任务,而且这是一个有趣的新领域。 祝好运。

假定扫描的文档看起来像文档,任何图像处理库都应该这样做。 您只需选择一些功能即可整理出不是文档的内容。 使用这些功能应用一些基本分类或机器学习。

剩余的几个文件可以由人工检查或使用某些ORC检查。 我不会在所有文件上运行OCR,因为与简单分类相比,它将花费更多的计算时间。

文件(尤其是机密文件)往往具有明亮的背景和高频暗的前景。 黑暗的东西按行分组。 几乎没有颜色,如果这些颜色通常仅占文档的一小部分(徽标等),我想不出具有这些属性的许多图像。

因此,除非您的收藏中有很多报纸和书籍的图片,否则还不错。

当然,扫描仪和照相机具有不同的成像特性和光学像差,我相信您可以在文件中找到其中的一些,但不适用于所有图像。 如果这些图像是从较大的图像中裁剪出来的,则尤其如此。

文件夹中是否还有其他背景文本图像? 这些扫描的文档中常见大图片吗? 从非简单图像堆中过滤掉大部分文本文档的一种非万无一失的方法是基于Shannon(直方图)熵使图像高通。 大多数图像的熵值比简单文档高一个数量级。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM