繁体   English   中英

如何使用Java从PDF中的特定矩形区域提取数据?

[英]How to extract data from a specific rectangular area in a PDF using Java?

我正在尝试从PDF内给出的两个坐标所指定的特定矩形区域中提取数据。 是否可以用PDF进行此操作,还是必须将其转换为图像并使用OCR? 如果是这样,PDFBox或iText是否包括通过OCR分析图像的方法? 谢谢!

银行对帐单

如果区域是文本。 使用pdfbox

PDDocument document = PDDocument.load(new File("target.pdf"));
PDFTextStripperByArea stripper = new PDFTextStripperByArea();
stripper.setSortByPosition(true);
Rectangle rect = new Rectangle(35, 375, 340, 204);
stripper.addRegion("class1", rect);
stripper.extractRegions(document.getPage(1));
System.out.println(stripper.getTextForRegion("class1")

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM