繁体   English   中英

俄语文件中的西里尔字母错误-无法正确解码/加长

[英]Wrong cyrillic characters in a russian file - can't decode/encore properly

我一直在努力编码,因为我正在使用Python中的sqlite3来构建多语言数据库。 到目前为止,由于Google和Stack Overflow上的文章,我已经解决了所有问题。 我遇到了俄文,斯洛文尼亚文,波兰文,西班牙文,法文等问题,但是都解决了,我无法解决这个文件。

我以为自己在此网站上找到了可能的解决方案: http : //www.smashingmagazine.com/2012/06/06/all-about-unicode-utf8-character-sets/ ,我什至找到了一个解码器,这使我非常接近解决问题。 但是它只产生了部分可以理解的俄语……(我相信它在其他情况下也可以提供帮助: http//2cyr.com/decode/?lang = fr,并且它也存在英语)。

但是最后一个文件将是我的尽头。 这是主要的问题:我知道它是俄语的,因为把它交给我的语言学家建造了它,并且知道它是俄语的。 但是,文件本身看起来像这样:

£ËÁÀÝÅÅ UNK £ËÁÀÝÉÊ UNKA
£ËÁÀÝÅÇÏ    UNK £ËÁÀÝÉÊ UNKA
£ËÁÀÝÅÊ UNK £ËÁÀÝÉÊ UNKA
£ËÁÀÝÅÍ UNK £ËÁÀÝÉÊ UNKA
£ËÁÀÝÅÍÕ    UNK £ËÁÀÝÉÊ UNKA

根据我的外壳,它是用utf-8编码的。 因此,我一直在尝试解码utf-8并将其编码为我能找到的所有俄语编码(ISO-8859-5,koi8_r,koi8_u,cp1252,cp1251 ...)。 它从来没有奏效。 我还尝试过以所有这些编码保存文件,然后以其他方式解码,但没有成功...

它必须进入数据库(sqlite),并且我知道为此所需的编码是utf-8。 我以前使用过的俄语文件是“正确地”写的(西里尔字母),我只需要弄清楚要使用哪种编码。 但是在这里,我觉得我已经尝试了一切,但没有得到任何结果...

我实际上是在想是否可以解码这样的文件,因为从一开始它就不会太过花哨。

任何建议都将受到欢迎:)

第一个也是最重要的问题-文本不在UTF-8中,而是在KOI8R中。 因此,如果您需要通过Python进行解码,则可以参考以下答案- 字符串编码/解码 -它可能会为您提供一些线索。

我已经解码了您指定的文字-请尽情享受:

ёкающее UNK ёкающий UNKA
ёкающего    UNK ёкающий UNKA
ёкающей UNK ёкающий UNKA
ёкающем UNK ёкающий UNKA
ёкающему    UNK ёкающий UNKA

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM