簡體   English   中英

如何在我的pdf中讀出JBIG2算法使用的符號字典的屬性?

[英]How to read out the properties of the Symbol Dictionary used by the JBIG2 algorithm in my pdf?

我有一個包含長列表數字的 PDF,它是使用 JBIG2 算法壓縮的。 當我查找文件的內部文件結構時,我發現我的頁面是用兩個不同的 XObject 構建的: 圖為 Adob​​e Acrobat Preflight -> 內部結構。

(圖為 Adob​​e Acrobat Preflight -> 內部結構。)

我可以輕松查看第一個名為“XIPLAYER0”(未圖示)的細節,如果我願意,它甚至可以一點一點地給我信息。 第二個是我感興趣的。 在其中我可以看到圖像是使用 2 個“符號字典”(第一個標記為灰色)構建的。 是否可以在這本詞典中看到不同的條目? 或者甚至可能只為其中一個獲得一些元數據?

樣本 PDF(外部鏈接)

這與 PDF 無關,PDF 只是 JBIG2 格式及其符號字典的容器,這是您真正感興趣的。

但是,作為第一步,您需要PDF 中獲取 JBIG2 圖像:

從PDF中提取圖像,如何處理JBIG2編碼

SO提到了poppler,並且poppler確實有一個Python綁定/包裝器:

https://pypi.org/project/python-poppler/

一旦你得到那些 JBIG2 文件,也許這會有所幫助:

jbig2_symbol_dict.c

更大的項目有一個命令行工具,它有一個“轉儲”選項,但消息來源說它沒有實現^1

case dump:
    fprintf(stderr, "Sorry, segment dump not yet implemented\n");
    break;

所以如果你只是好奇/這是一個學術問題,答案看起來像“不是真的”。 如果您需要閱讀文本,OCR 怎么樣?

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM