繁体 English 中英

自定义 PDFTextStripper PDFbox

[英]Customizing PDFTextStripper PDFbox

原文 2020-01-30 13:46:01 4 2 java/ pdfbox

PDFTextStripper具有从整个文档中提取文本的功能，有没有办法仅在识别出某个值后才提取文本，例如：

A B C D G   1 line

A B C D G   2 line

A B C D G   3 line

QUANTITY  4 line

我想在找到 Quantity(String) 后开始提取文本如果有人处理 PDFBox 并有一些建议，将不胜感激

或者是否只有当它在文本将包含的值之后点击一行时才可以添加到列表中？

2 个解决方案

最简单的解决方案是捕获整个文本，然后创建一个模式，上面写着 -> "DESCRIPTION\\\\s*Reference\\\\s*QUANTITY(.*)"所以基本上我想从上面提到的单个页面上捕获所有内容

创建一个将String文本作为参数的函数，定位单个matcher.group(1) ，并返回String或Optional<String>
创建一个模式并使用正则表达式告诉该模式您想从哪里开始捕获

您可以按照 Artjom 的说明捕获整个文本，也可以创建一个自定义的 PDFTextStripper，它从 PDFTextStripper 扩展并覆盖解析文本的函数，如下所示

@Override
protected void writeString(String text, List<TextPosition> textPositions) {
    ...
}

然后使用 TextPositions 来确定应该从哪里开始解析

pdfbox快照2.0中的PDFTextStripper等效项是什么

[英]What is the equivalent of PDFTextStripper in pdfbox snapshot 2.0

PDFBox 2.0：PDFTextStripper中的不可见文本

[英]PDFBox 2.0 : Invisible text from PDFTextStripper

PDFBox：来自PdfTextStripper的不可见文本（不存在剪切路径或颜色问题）

[英]PDFBox: Invisible text from PdfTextStripper (not clip path or color issue)

在 pdfbox 中使用 PDType0Font 时出现 PDFTextStripper().getText 问题

[英]Problem with PDFTextStripper().getText when using PDType0Font in pdfbox

PDFBox-2.0.3-PDFTextStripper在裁剪/旋转之前从页面中拾取旧文本

[英]PDFBox - 2.0.3 - PDFTextStripper picking up old text from page prior to cropping/rotating

PDFTextStripper NullPointerException

[英]PDFTextStripper NullPointerException

PDFTextStripper解析错误的编码

[英]PDFTextStripper parsing with wrong encoding

再次有来自 PdfTextStripper 的不可见文本

[英]Again having invisible text coming from PdfTextStripper

PDFBOX：使用pdfbox编制索引

[英]PDFBOX: Indexing using pdfbox

带 Restlet 的 PDFbox

[英]PDFbox with Restlet

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 pdfbox快照2.0中的PDFTextStripper等效项是什么 PDFBox 2.0：PDFTextStripper中的不可见文本 PDFBox：来自PdfTextStripper的不可见文本（不存在剪切路径或颜色问题）在 pdfbox 中使用 PDType0Font 时出现 PDFTextStripper().getText 问题 PDFBox-2.0.3-PDFTextStripper在裁剪/旋转之前从页面中拾取旧文本 PDFTextStripper NullPointerException PDFTextStripper解析错误的编码再次有来自 PdfTextStripper 的不可见文本 PDFBOX：使用pdfbox编制索引带 Restlet 的 PDFbox

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM