[英]Levenshtein distance on non-English strings
只有语言是基于字母的。 例如俄语,德语,......但是象形文字(例如中国)或音节(比如老挝) - 不是。
是。 但是你必须将非英语字符视为“1个字符”,而不是多个字符(例如使用utf-8)。 例如,在python中,您将使用unicode类来表示字符串(和字符)。
Levenshtein并不关心语言,只是告诉你需要更改(添加,删除,交换)多少个字符才能从一个字符串到另一个字符串。
所以:是的,但你必须检查你的字符集,一些外国的“单个”字符,否则我将被视为两个(或更多)字符。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.