[英]How do I get or produce the Unicode needed in Tesseract box file?
在https://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3此处的tesseract的google文档中,有一条指令要求我必须获取Box文件中生成的字符的Unicode。
s 734494751751519 0
p 753486776776518 0
r 779494796796518 0
i 799 494 810 527 0
n 814494837837 0
g 839 485 862 518 0
t 865492878521 0
u 101453122484 0
b 126453146486 0
e 149452168477 0
r 172453187476 0
d 211 451 232 484 0
e 236451255255475 0
n 259452281475 0
现在,我的问题是在哪里或如何获得? 我正在为孟加拉语言开发OCR。
框文件是UTF-8编码的文本文件。 您可以使用Unicode兼容的文本编辑器或Box文件编辑器 ,使用喜欢的Bangla输入法打开和编辑字符。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.