![](/img/trans.png)
[英]extracting text from using pdfclown function 'textextractor'
[英]extracting from specific areas using pdfclown
我試圖用兩列突出顯示PDF中的文本,但是問題是提取器明智地提取了文本行。 因此查詢的文本不匹配。 我在想pdfclown
是否有某些功能可以幫助我提取頁面的上半部分,即第一列,然后提取第二半,可能是通過選擇區域。
謝謝。
當您談論使用PDF Clown進行文本提取時,我假設您正在使用該庫的TextExtractor
類。
此類提供了許多屬性,有助於限制解析區域:
public void setAreas(List<Rectangle2D> value);
public void setAreaTolerance(double value);
public void setAreaMode(AreaModeEnum value);
setAreas
允許您設置要從中提取文本的頁面區域, setAreaTolerance
允許您向這些區域添加一些公差(實質上是通過各個方向上的該值擴大區域),而setAreaMode
用於控制是否必須包含字符串。區域 ( Containment
)或僅需要相交的區域 ( Intersection
),以被包括在掃描結果。
這些屬性如何工作,可以在TextExtractor
方法中看到
public Map<Rectangle2D,List<ITextString>> filter(
List<? extends ITextString> textStrings,
Rectangle2D... areas
);
過濾頁面上所有文本字符串的列表。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.