繁体   English   中英

将重整字符转换回 UTF-8

[英]Convert mangled characters back to UTF-8

这是我所做的:

  1. 我转储了一个带有 UTF-8 数据的 SQLite 数据库( sqlite3 example.db .dump > dump.sql ),但由于这是在 powershell 中,我假设管道将其转换为 windows-1252
  2. 我再次使用 powershell ( Get-Content dump.sql | sqlite3 example2.db ) 将转储的数据加载到新数据库中
  3. 我转储了那个数据库并留下了一个新的.sql文件(这次它不是通过 powershell - 所以我认为它没有被修改)

这个新的 sql 文件的 UTF-8 字符严重损坏,我想知道是否有办法将它转换回正确的 UTF-8。

举几个例子,这里是文件中的一些序列,以及它们应该是什么(都被视为 UTF-8):

  1. ÒüéÒü¬ÒüƒÒü½应该是あなたに
  2. ´╝ü应该是全角感叹号
  3. Òé¡Òé╗Òé¡应该是キセキ

有没有人知道我可以如何撤消这种破坏? 任何方法都会非常有帮助!

这是在 PowerShell 7.0.1

编辑:

在进一步检查时,您可以通过将任何此类数据重定向到 powershell 中的文件来复制我的困境(请注意,数据本身不能在 powershell 中输入)。 因此,设置这样的脚本会产生相同的结果:

测试文件

#!/bin/bash
echo "キ"

然后运行wsl ./test.sh > test.txt将给出Òé¡的输出,而不是

编辑2:

似乎 UTF-8 文本转换成的代码页几乎是 437:使用此假设(例如)恢复了一些字符,但其他字符则不然。 如果它接近 437,但不是,那可能是什么?

事实证明,因为我在英国,所以我想要的代码页是 850。将文件保存为 850,然后将其重新加载为 UTF-8 解决了我的问题!

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM