繁体   English   中英

区分 PDF 文件中的空白页 VS X 跨页使用 iText7 C#

[英]Differentiate between blank page VS X-Cross page in PDF file Using iText7 C#

我正在使用 IText7 将 PDF 文档拆分为多个 PDF 文档。 例如,我有一个包含多个页面组合的 PDF 文档。

  • 第 1 页 - 带有 X 十字符号的页面
  • 第 2 页 - 空白页
  • 第 3 页 - 带文字的页面
  • 第 4 页 - 带有 X-Cross 符号的页面
  • 第 5 页 - 空白页
  • 第 6 页 - 带文字的页面
  • 第 7 页 - 带有 X-Cross 符号的页面

当我尝试阅读页面详细信息的文本时,第 1 页和第 2 页都将文本返回为空。

我的问题是:如何确定空白页和带有 X-Cross 符号的页面? 任何帮助将不胜感激。

在评论中,您解释说X-Cross 符号实际上是bitmap 图像 因此,要检查页面上是否有这样的符号,您必须应用bitmap 图像提取,而不是文本提取 关于堆栈溢出时的 bitmap 图像提取有许多问题和答案,例如 iText 7 开发团队的 Alexey Subach 的回答

如果幸运的话,空白页确实是空白的(并且不包含例如纯白色或纯透明 bitmap 图像)。 在这种情况下,您只需要检查页面是否有(a)任何文本(您已经检查过)以及是否有(b)任何 bitmap:

  • 如果两者都没有,则为Blank Page
  • 如果它只有一个图像,它是一个带有 X-Cross 符号的页面
  • 如果它有文本,则它是一个带有 Text 的页面

如果事情更复杂,您将不得不更仔细地查看,例如分析在页面上找到的位图。 如果所有这些 X-Cross 符号位图都相同,您可以将找到的 bitmap 图像与您首先提取的示例进行比较。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM