簡體   English   中英

如何從 Android 中的印地語 PDF 文件中提取文本

[英]How can a extract text from Hindi PDF file in Android

我正在嘗試閱讀印地語 PDF 的內容。 我已經使用itext7庫來讀取 PDF 文件。

它適用於英語 PDF 並且也可以獲取確切的字符但是當我嘗試使用任何印地語(本地)語言 PDF 時,值的格式不可讀。

我得到文本的不可讀格式

d d d daaaah h eeh h ee aaaa  

這是閱讀 PDF 頁面的示例代碼。

val pdfReader = PdfReader("pdfPath")
            PdfDocument(pdfReader).use { doc ->
                pdfContent = PdfTextExtractor.getTextFromPage(doc.getPage(1))
            }
            pdfReader.close()

我是否需要將語言參數傳遞給 itext7 庫才能獲得確切的內容?

在您的示例 PDF 中,用於印地語字形的字體 object 明確聲稱這些字形對應於用於文本提取的拉丁語 Unicode 字符:

PDF調試器屏幕截圖

因此,文本提取器為這些印地語字形提取拉丁語 Unicode 字符是完全正確的。

即使查看嵌入字體程序(超出常規文本提取)也不能改善這種情況,嵌入字體程序也映射到拉丁 Unicode 字符,只是不同的字符:

字體鍛造屏幕截圖

因此,對於這樣的 PDF,您應該嘗試OCR而不是text extract

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM