繁体   English   中英

如何从 Android 中的印地语 PDF 文件中提取文本

[英]How can a extract text from Hindi PDF file in Android

我正在尝试阅读印地语 PDF 的内容。 我已经使用itext7库来读取 PDF 文件。

它适用于英语 PDF 并且也可以获取确切的字符但是当我尝试使用任何印地语(本地)语言 PDF 时,值的格式不可读。

我得到文本的不可读格式

d d d daaaah h eeh h ee aaaa  

这是阅读 PDF 页面的示例代码。

val pdfReader = PdfReader("pdfPath")
            PdfDocument(pdfReader).use { doc ->
                pdfContent = PdfTextExtractor.getTextFromPage(doc.getPage(1))
            }
            pdfReader.close()

我是否需要将语言参数传递给 itext7 库才能获得确切的内容?

在您的示例 PDF 中,用于印地语字形的字体 object 明确声称这些字形对应于用于文本提取的拉丁语 Unicode 字符:

PDF调试器屏幕截图

因此,文本提取器为这些印地语字形提取拉丁语 Unicode 字符是完全正确的。

即使查看嵌入字体程序(超出常规文本提取)也不能改善这种情况,嵌入字体程序也映射到拉丁 Unicode 字符,只是不同的字符:

字体锻造屏幕截图

因此,对于这样的 PDF,您应该尝试OCR而不是text extract

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM