[英]Empty whitespace conversion in PDFClown
在PDFClown中使用TextExtractor
類時遇到問題,出現空白也稱為“自由換行符”。 這些字符被隨機嵌入,但在Acrobat Reader中被忽略。 因此,如果我在TextExtractor.ToString(...)
中將'\\n'
指定為換行符,則這些字符所在的行在Acrobat中將顯示為單行,但在提取文本時會分成多行。
看來,PDF小丑只是采用了任何空白字符並將其轉換為單個空格或' '
。 有沒有一種方法可以繞過這種轉換,從而提取原始字符?
經過更多研究,看來PDFClown庫是非常有問題的。 有幾個問題:
為了直接解決我遇到的問題,您可以通過檢查其邊界矩形來檢測並刪除這些“假”空白字符,以查看它們是否與其他非空白字符重疊,但是鑒於該庫的所有其他問題,我的使用建議使用PDFBox代替。
如果您使用的是.NET,而您想使用PDFBox ,則可以使用Tika On Dot Net ,它是通過IKVM移交給.NET的Apache Tika項目。
Apache Tika是其他庫的集合,包括PDFBox。 Tika On Dot Net當前具有PDFBox 1.8.10,並且還具有一個Nuget軟件包,可輕松添加到您的項目中。
我的項目比截止日期提前了1.5周,因為所有這些問題都是在中途發現的,因此需要完全重寫。 只是抬頭。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.