簡體   English   中英

將基於圖像的 PDF 轉換為基於文本的 PDF

[英]Converting Image-Based PDF to Text-Based PDF

如何將基於圖像的 PDF 轉換為基於文本的 PDF。有很多工具可供使用。 但是我正在尋找 C# 代碼來進行申請。 我聽說過 Tessara,但我沒有獲得 C# 的代碼。它僅適用於 c/c++。

我使用 MODI dll 將圖像轉換為文本。 該過程是將 PDF 的每一頁轉換為圖像(使用 Acrobat dll),並使用該 output 圖像(bmp/tif)我們可以使用 MODI 獲取文本。 是否有可能將 MODI object 更改為 PDF?

MODI.Document doc = new MODI.Document();
doc.Create(ImagePath);
doc.OCR(MODI.MiLANGUAGES.miLANG_ENGLISH, false, false);
doc.SaveAs("c://.../test.pdf", MODI.MiFILE_FORMAT.miFILE_FORMAT_DEFAULTVALUE, MODI.MiCOMP_LEVEL.miCOMP_LEVEL_HIGH);
//But this line creating PDF but the PDF is not opened. Due to error.

如果您有任何其他方法可以做到這一點,請告訴我。

問候,R.Balajiprasad

您可以使用谷歌的Tesseract-OCR並且可以在此處找到文檔。 它是免費的,而且效果很好。 有一個使用 tesseract 的金塊 package ( IronOcr ),可以在此處找到。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM