[英]Python module that can remove the OCRed text layer from one pdf file and move it to another?
我有兩個pdf文件,它們幾乎相同,除了第一個有OCRed文本而另一個沒有,並且它們具有不同的壓縮率。
我要這樣做的原因是,第一個文件的OCRed文本中存在一些錯誤,並且該文件使用OCRed文本覆蓋了相應的圖像,這使我無法知道正確的文本是什么。 這是第二個文件可以幫助我的方式。
我想要
使第一個文件顯示圖像,並隱藏OCRed文本且不覆蓋圖像。
或者,將OCRed文本從第一個文件移到第二個文件。
或者,從第一個文件中刪除OCRed文本,然后重新進行OCR,因為Adobe Acrobat無法使用OCRed文本重新對pdf文件進行OCR。
所以我想知道是否有一個Python模塊可以將OCRed文本層從第一個文件移到第二個文件,同時又將OCRed文本層從第一個文件移開?
如果沒有,那么哪些語言可以擁有此類庫?
謝謝!
查看pdfminer; 它不是完全用戶友好的API,但是您應該能夠導航PDF結構並刪除阻礙文本。 您可以提出一些具體問題。
但是,如果僅是隱藏OCR的問題,則可以在Acrobat中打開文件將其隱藏。 IIRC它具有僅顯示OCR,僅顯示背景或同時顯示兩者的選項。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.