如何在我的pdf中讀出JBIG2算法使用的符號字典的屬性？

Question

我有一個包含長列表數字的 PDF，它是使用 JBIG2 算法壓縮的。 當我查找文件的內部文件結構時，我發現我的頁面是用兩個不同的 XObject 構建的：

（圖為 Adobe Acrobat Preflight -> 內部結構。）

我可以輕松查看第一個名為“XIPLAYER0”（未圖示）的細節，如果我願意，它甚至可以一點一點地給我信息。 第二個是我感興趣的。 在其中我可以看到圖像是使用 2 個“符號字典”（第一個標記為灰色）構建的。 是否可以在這本詞典中看到不同的條目？ 或者甚至可能只為其中一個獲得一些元數據？

樣本 PDF（外部鏈接）

Answer 1

這與 PDF 無關，PDF 只是 JBIG2 格式及其符號字典的容器，這是您真正感興趣的。

但是，作為第一步，您需要從PDF 中獲取 JBIG2 圖像：

從PDF中提取圖像，如何處理JBIG2編碼

SO提到了poppler，並且poppler確實有一個Python綁定/包裝器：

https://pypi.org/project/python-poppler/

一旦你得到那些 JBIG2 文件，也許這會有所幫助：

jbig2_symbol_dict.c

更大的項目有一個命令行工具，它有一個“轉儲”選項，但消息來源說它沒有實現^1 ：

case dump:
    fprintf(stderr, "Sorry, segment dump not yet implemented\n");
    break;

所以如果你只是好奇/這是一個學術問題，答案看起來像“不是真的”。 如果您需要閱讀文本，OCR 怎么樣？

如何在我的pdf中讀出JBIG2算法使用的符號字典的屬性？

問題描述

1 個解決方案

解決方案1
1 2022-05-24 15:08:05

如何在我的pdf中讀出JBIG2算法使用的符號字典的屬性？

問題描述

1 個解決方案

解決方案1 1 2022-05-24 15:08:05

解決方案1
1 2022-05-24 15:08:05