使用pdfclown從特定區域提取

Question

我試圖用兩列突出顯示PDF中的文本，但是問題是提取器明智地提取了文本行。 因此查詢的文本不匹配。 我在想pdfclown是否有某些功能可以幫助我提取頁面的上半部分，即第一列，然后提取第二半，可能是通過選擇區域。

謝謝。

Answer 1

當您談論使用PDF Clown進行文本提取時，我假設您正在使用該庫的TextExtractor類。

此類提供了許多屬性，有助於限制解析區域：

public void setAreas(List<Rectangle2D> value);
public void setAreaTolerance(double value);
public void setAreaMode(AreaModeEnum value);

setAreas允許您設置要從中提取文本的頁面區域， setAreaTolerance允許您向這些區域添加一些公差（實質上是通過各個方向上的該值擴大區域），而setAreaMode用於控制是否必須包含字符串。區域 （ Containment ）或僅需要相交的區域 （ Intersection ），以被包括在掃描結果。

這些屬性如何工作，可以在TextExtractor方法中看到

public Map<Rectangle2D,List<ITextString>> filter(
    List<? extends ITextString> textStrings,
    Rectangle2D... areas
);

過濾頁面上所有文本字符串的列表。

使用pdfclown從特定區域提取

問題描述

1 個解決方案

解決方案1
0 已采納 2013-05-21 08:45:25

使用pdfclown從特定區域提取

問題描述

1 個解決方案

解決方案1 0 已采納 2013-05-21 08:45:25

解決方案1
0 已采納 2013-05-21 08:45:25