簡體   English   中英

使用pdfclown從特定區域提取

[英]extracting from specific areas using pdfclown

我試圖用兩列突出顯示PDF中的文本,但是問題是提取器明智地提取了文本行。 因此查詢的文本不匹配。 我在想pdfclown是否有某些功能可以幫助我提取頁面的上半部分,即第一列,然后提取第二半,可能是通過選擇區域。

謝謝。

當您談論使用PDF Clown進行文本提取時,我假設您正在使用該庫的TextExtractor類。

此類提供了許多屬性,有助於限制解析區域:

public void setAreas(List<Rectangle2D> value);
public void setAreaTolerance(double value);
public void setAreaMode(AreaModeEnum value);

setAreas允許您設置要從中提取文本的頁面區域, setAreaTolerance允許您向這些區域添加一些公差(實質上是通過各個方向上的該值擴大區域),而setAreaMode用於控制是否必須包含字符串。區域Containment )或僅需要相交的區域Intersection ),以被包括在掃描結果。

這些屬性如何工作,可以在TextExtractor方法中看到

public Map<Rectangle2D,List<ITextString>> filter(
    List<? extends ITextString> textStrings,
    Rectangle2D... areas
);

過濾頁面上所有文本字符串的列表。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM