繁体   English   中英

如何在Tesseract框文件中获取或产生所需的Unicode?

[英]How do I get or produce the Unicode needed in Tesseract box file?

https://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3此处的tesseract的google文档中,有一条指令要求我必须获取Box文件中生成的字符的Unicode。

s 734494751751519 0

p 753486776776518 0

r 779494796796518 0

i 799 494 810 527 0

n 814494837837 0

g 839 485 862 518 0

t 865492878521 0

u 101453122484 0

b 126453146486 0

e 149452168477 0

r 172453187476 0

d 211 451 232 484 0

e 236451255255475 0

n 259452281475 0

现在,我的问题是在哪里或如何获得? 我正在为孟加拉语言开发OCR。

框文件是UTF-8编码的文本文件。 您可以使用Unicode兼容的文本编辑器或Box文件编辑器 ,使用喜欢的Bangla输入法打开和编辑字符。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM