如何从 Android 中的印地语 PDF 文件中提取文本

Question

我正在尝试阅读印地语 PDF 的内容。 我已经使用itext7库来读取 PDF 文件。

它适用于英语 PDF 并且也可以获取确切的字符但是当我尝试使用任何印地语（本地）语言 PDF 时，值的格式不可读。

我得到文本的不可读格式

d d d daaaah h eeh h ee aaaa

这是阅读 PDF 页面的示例代码。

val pdfReader = PdfReader("pdfPath")
            PdfDocument(pdfReader).use { doc ->
                pdfContent = PdfTextExtractor.getTextFromPage(doc.getPage(1))
            }
            pdfReader.close()

我是否需要将语言参数传递给 itext7 库才能获得确切的内容？

Answer 1

在您的示例 PDF 中，用于印地语字形的字体 object 明确声称这些字形对应于用于文本提取的拉丁语 Unicode 字符：

因此，文本提取器为这些印地语字形提取拉丁语 Unicode 字符是完全正确的。

即使查看嵌入字体程序（超出常规文本提取）也不能改善这种情况，嵌入字体程序也映射到拉丁 Unicode 字符，只是不同的字符：

因此，对于这样的 PDF，您应该尝试OCR而不是text extract 。

如何从 Android 中的印地语 PDF 文件中提取文本

问题描述

1 个解决方案

解决方案1
1 2021-01-18 12:31:24

如何从 Android 中的印地语 PDF 文件中提取文本

问题描述

1 个解决方案

解决方案1 1 2021-01-18 12:31:24

解决方案1
1 2021-01-18 12:31:24