繁体   English   中英

Levenshtein在非英语字符串上的距离

[英]Levenshtein distance on non-English strings

Levenshtein距离算法是否也适用于非英语语言字符串?

更新 :在比较亚洲字符时,这是否会像Java这样的语言自动运行?

只有语言是基于字母的。 例如俄语,德语,......但是象形文字(例如中国)或音节(比如老挝) - 不是。

是。 但是你必须将非英语字符视为“1个字符”,而不是多个字符(例如使用utf-8)。 例如,在python中,您将使用unicode类来表示字符串(和字符)。

Levenshtein并不关心语言,只是告诉你需要更改(添加,删除,交换)多少个字符才能从一个字符串到另一个字符串。

所以:是的,但你必须检查你的字符集,一些外国的“单个”字符,否则我将被视为两个(或更多)字符。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM