[英]Differentiate between blank page VS X-Cross page in PDF file Using iText7 C#
我正在使用 IText7 将 PDF 文档拆分为多个 PDF 文档。 例如,我有一个包含多个页面组合的 PDF 文档。
当我尝试阅读页面详细信息的文本时,第 1 页和第 2 页都将文本返回为空。
我的问题是:如何确定空白页和带有 X-Cross 符号的页面? 任何帮助将不胜感激。
在评论中,您解释说X-Cross 符号实际上是bitmap 图像。 因此,要检查页面上是否有这样的符号,您必须应用bitmap 图像提取,而不是文本提取。 关于堆栈溢出时的 bitmap 图像提取有许多问题和答案,例如 iText 7 开发团队的 Alexey Subach 的回答。
如果幸运的话,空白页确实是空白的(并且不包含例如纯白色或纯透明 bitmap 图像)。 在这种情况下,您只需要检查页面是否有(a)任何文本(您已经检查过)以及是否有(b)任何 bitmap:
如果事情更复杂,您将不得不更仔细地查看,例如分析在页面上找到的位图。 如果所有这些 X-Cross 符号位图都相同,您可以将找到的 bitmap 图像与您首先提取的示例进行比较。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.