繁体   English   中英

Android:从PDF提取文本的速度非常慢

Android: Text extraction from PDF is terribly slow

提示:本站收集StackOverFlow近2千万问答,支持中英文搜索,鼠标放在语句上弹窗显示对应的参考中文或英文, 本站还提供   中文繁体   英文版本   中英对照 版本,有任何建议请联系yoyou2525@163.com。

在我的Android项目中,我想从pdf文件中提取纯文本。 我设法做到了,尝试了itextpdfbox库。 无论使用哪种格式,从一页pdf文件中提取文本的过程都需要2-3分钟(!)。 这不是模拟器,而是在Android 8.0上运行的Samsung Galaxy S7。

我尝试在调试器中探索花费了这么长时间,但是我无法使用Android Studio调试器来执行此操作,有时断点不起作用,程序暂停时未显示调用堆栈,或者程序暂停后突然终止。 ..

该代码在JobIntentService中运行:

public class GetMenuService extends JobIntentService {
...

    @Override
    protected void onHandleWork(Intent intent) {
        try {
            PdfReader reader = new PdfReader(new File(getFilesDir(), MENU_FILENAME).getPath());
            int n = reader.getNumberOfPages();
            for (int i = 0; i <n ; i++) {
                parsedText   = parsedText+ PdfTextExtractor.getTextFromPage(reader, i+1).trim()+"\n"; //Extracting the content from the different pages
            }
            System.out.println(parsedText);
            reader.close();
        } catch (Exception e) {
             System.out.println(e);
        }
        ...        
    }
}

为了提高性能,需要知道导致问题的原因。 图书馆这么慢吗? 是否缺少Android Studio中的任何构建优化? 还是因为代码在JobIntentService内部?

问题暂未有回复.您可以查看右边的相关问题.
1 在Android Studio中从pdf提取印地语文本

嗨,我是Android Studio的新手,从pdf提取非英语(hindi)文本并在文本视图中显示时遇到了一些麻烦。 英文字母是从pdf正确提取的,但是涉及到非英文(印地语)字母时,我总是会得到垃圾值。任何人都可以提供示例代码,以了解如何从pdf中提取非英文字母吗? ...

2 文字渲染非常慢

我正在使用FTGL库来渲染我的C ++,OpenGL应用程序中的文本,但我发现它非常慢,尽管据说这是一个快速而有效的库。 即使对于少量文本,性能下降也是可见的,但是当我尝试渲染几行文本时,FPS从350减少到30~: 是的,我已经知道FPS不是检查效率的好方法,但在这种情况下应该没 ...

3 从 pdf/a 中提取文本

您知道任何允许我提取 A 型 pdf 文本以在 PHP 中阅读的库吗? 我尝试了很多图书馆,但没有一个能够阅读我需要帮助的内容 ...

4 从PDF中提取文本和分类

我有一个包含一堆PDF格式扫描发票的文件夹。 我想将这些PDF文件分组到单独的文件夹中; 每个供应商名称的单独文件夹。 (供应商名称通常可以在页面顶部看到,例如“信头”,有时也可能会局限于顶部的较小区域) 我应该为此使用Tesseract还是应该为该任务使用OpenCV 。 我应该先执行文本提 ...

5 在UNICODE中从PDF提取文本

我需要从pdf文件中提取文本,我发现这篇文章可以从pdf文件中提取每个文本流,然后将其解压缩。。但是我还需要以Unicode提取文本,因此我尝试调整代码以使其可以使用wchar_t字符。 唯一的问题是zlib一次仅接受一个字节进行解压缩。.而我的wchar_t每1个字符没有1个字节。 那 ...

6 从pdf中提取文本的换行符

我正在编写一个关于在pdf中提取文本的函数,我也在使用pyPdf库。 提取没问题。 但我遇到了一些问题,比如排除换行符。 所以我找到了添加换行符的方法,所以我这样做了: 问题甚至是这样的情况: 变成这样: 它不应该是。 我只想在句子的每一端添加换行符。 ...

8 从pdf图像文件中提取文本

我有一个图像文件,我想从给定的图像中提取文本,我尝试了各种OCR引擎,但是我无法找到左侧实体和右侧实体之间的关系,因为OCR引擎只是提取文本而没有实体之间的关系。 例如,交易(公司借钱),帐户1:现金帐户2:应付贷款 我尝试使用各种OCR引擎以及PyPDF2和pdftotext 提取文本 ...

9 从Point链接提取PDF文本

我在获取链接链接时遇到问题,例如,如果我在pdf中有一个链接重定向到另一个链接。 我需要解析两个链接,并在第二个链接命中的最后一点获取文本 我尝试了pyMUPDF软件包,并且能够访问特定页面中的所有链接。 我能够获取特定页面的文本。 但我无法获得链接和最终文本的链接 我在页面对 ...

10 使用搜索条件从 PDF 中提取文本

我需要从 PDF 中提取文本,我有一个关键字列表,它告诉我需要提取的文本部分。 PDF 看起来像这样: 架构元素: Keyword1这是我的关键字 字体大小: 14我不需要这个 完成架构元素的指南:文本文本。 这是我需要的文本,长度可以在 2 到 3 行之间。 甚至包含多个句子。 ...

2020-06-19 05:55:19 1 187   r/ pdf
暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2021 STACKOOM.COM