变音符号的问题（无法输入终端+无法打开文件）

Question

phuclv

Asked: 2018-03-11 22:09:24 +0800 CST2018-03-11 22:09:24 +0800 CST 2018-03-11 22:09:24 +0800 CST

如何翻译 Unicode 字符？[复制]

772

我正在尝试将一些字符转换为这样的全角形式

tr 'abcdefghijklmnopqrstuvwxyz' 'ａｂｃｄｅｆｇｈｉｊｋｌｍｎｏｐｑｒｓｔｕｖｗｘｙｚ'

但是，它不起作用。我进行了搜索，结果发现tr它不支持 UTF-8。因此，根据该问题的答案，我尝试使用 perl

perl -C -pe 'tr/abcdefghijklmnopqrstuvwxyz/ａｂｃｄｅｆｇｈｉｊｋｌｍｎｏｐｑｒｓｔｕｖｗｘｙｚ/'

但仍然没有帮助。我尝试了更简单的版本

$ echo abca | perl -C -pe 's/a/ａ/g'
ï½bcï½
$ echo abca | perl -C -pe 'tr/a/ａ/'
ïbcï

似乎 perl 仍然将多字节 UTF-8 字符视为字节

如何正确转换这些字符？

1 个回答

Voted

Michael Homer · Answer 1 · 2018-03-11T22:35:48+08:00

GNU 和 BSDsed在适当的语言环境中都是多字节感知的，y命令类似于tr：

$ echo hello | sed -e 'y/abcdefghijklmnopqrstuvwxyz/ａｂｃｄｅｆｇｈｉｊｋｌｍｎｏｐｑｒｓｔｕｖｗｘｙｚ/'
ｈｅｌｌｏ

这应该适用于您可能运行它的大多数地方，只要您的语言环境是 UTF-8 语言环境。

Perl 问题并不像将多字节字符视为字节那么简单。它可以很好地理解您的输入，甚至对输出进行编码，这是它不理解的源代码：

$ echo abc | perl -C -pe 'tr/abcdefghijklmnopqrstuvwxyz/ａｂｃｄｅｆｇｈｉｊｋｌｍｎｏｐｑｒｓｔｕｖｗｘｙｚ/'|hexdump -C
00000000  c3 af c2 bd c2 81 0a                              |.......|

"a" 的 UTF-8 编码是ef bd 81，因此您可以看到它将 "b" 视为第二个字节，然后在输出时尝试对其进行修改，对于 "c" 也是如此。你需要use utf8让你的 Perl (5) 源代码本身以这种方式编码；-C仅控制程序在运行时执行的 IO。

您可以放入use utf8;您的-e字符串，或在命令行上使用-Mutf8：

$ echo abc | perl -C -Mutf8 -pe 'tr/abcdefghijklmnopqrstuvwxyz/ａｂｃｄｅｆｇｈｉｊｋｌｍｎｏｐｑｒｓｔｕｖｗｘｙｚ/'
ａｂｃ

Perl 6 确实解决了这个问题，但...

如何翻译 Unicode 字符？[复制]

如何将 GPG 私钥和公钥导出到文件

ssh 无法协商：“找不到匹配的密码”，正在拒绝 cbc

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

如何卸载内核模块“nvidia-drm”？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

如何翻译 Unicode 字符？[复制]

1 个回答

相关问题