如何使用bash工具搜索非ASCII字符？

Question

我有一个大文本文件，其中包含一些使LaTeX崩溃的unicode字符。 如何在Linux bash中使用sed等文件中找到非ASCII字符？

Answer 1

尝试：

nonascii() { LANG=C grep --color=always '[^ -~]\+'; }

哪个可以用作：

printf 'ŨTF8\n' | nonascii

在[] ^表示“不”。 所以[^ -~]表示不在空格和〜之间的字符。 因此，排除控制字符，这与非ASCII字符匹配，并且是一个更便携但稍微不太准确的[^\\x00-\\x7f]版本。 \\+表示1 or more并且将获得多个字符以在整个字符周围显示颜色，而不是散布在每个字节中，从而破坏多字节序列

Answer 2

试试这个命令：

grep -P '[^\x00-\x7f]' file

如何使用bash工具搜索非ASCII字符？

问题描述

2 个解决方案

解决方案1
30 已采纳 2012-11-28 02:08:57

解决方案2
21 2012-11-28 02:00:20

如何使用bash工具搜索非ASCII字符？

问题描述

2 个解决方案

解决方案1 30 已采纳 2012-11-28 02:08:57

解决方案2 21 2012-11-28 02:00:20

解决方案1
30 已采纳 2012-11-28 02:08:57

解决方案2
21 2012-11-28 02:00:20