簡體   English   中英

多頁Tiff的Tesseract訓練

[英]Tesseract training with multipage tiff

如果我使用多頁tiff訓練Tesseract,則框文件應如何顯示?

更精確地說:框文件的Y坐標與頁面內的Y坐標如何對應?

框文件中的最后第六列代表從零開始的頁碼。

https://github.com/tesseract-ocr/tesseract/wiki/Make-Box-Files

更新:

https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract

每種字體應放在單個多頁tiff中,並且可以修改框文件以為坐標后的每個字符指定頁碼。 因此,可以為任何給定字體創建任意數量的訓練數據,從而允許訓練大型字符集語言。

即使您可以根據需要擁有盡可能多的訓練文本,也可能會導致不必要的大圖像,從而減慢訓練速度。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM