如何從 Android 中的印地語 PDF 文件中提取文本

Question

我正在嘗試閱讀印地語 PDF 的內容。 我已經使用itext7庫來讀取 PDF 文件。

它適用於英語 PDF 並且也可以獲取確切的字符但是當我嘗試使用任何印地語（本地）語言 PDF 時，值的格式不可讀。

我得到文本的不可讀格式

d d d daaaah h eeh h ee aaaa

這是閱讀 PDF 頁面的示例代碼。

val pdfReader = PdfReader("pdfPath")
            PdfDocument(pdfReader).use { doc ->
                pdfContent = PdfTextExtractor.getTextFromPage(doc.getPage(1))
            }
            pdfReader.close()

我是否需要將語言參數傳遞給 itext7 庫才能獲得確切的內容？

Answer 1

在您的示例 PDF 中，用於印地語字形的字體 object 明確聲稱這些字形對應於用於文本提取的拉丁語 Unicode 字符：

因此，文本提取器為這些印地語字形提取拉丁語 Unicode 字符是完全正確的。

即使查看嵌入字體程序（超出常規文本提取）也不能改善這種情況，嵌入字體程序也映射到拉丁 Unicode 字符，只是不同的字符：

因此，對於這樣的 PDF，您應該嘗試OCR而不是text extract 。

如何從 Android 中的印地語 PDF 文件中提取文本

問題描述

1 個解決方案

解決方案1
1 2021-01-18 12:31:24

如何從 Android 中的印地語 PDF 文件中提取文本

問題描述

1 個解決方案

解決方案1 1 2021-01-18 12:31:24

解決方案1
1 2021-01-18 12:31:24