匹配 CSV 文件中的可逆对

Question

forthrin

Asked: 2018-04-03 04:27:45 +0800 CST2018-04-03 04:27:45 +0800 CST 2018-04-03 04:27:45 +0800 CST

用 shell perl 替换 UTF-8 字符

772

如何perl从 shell 中正确替换 UTF-8 字符？

这些示例使用标准输入，但我也需要一些适用的东西perl ... file。

这是我所期望的：

$ echo ABCæøåDEF | perl -CS -pe "s/([æøå])/[\\1]/g"
ABC[æ][ø][å]DEF

这就是我得到的：

$ echo ABCæøåDEF | perl -CS -pe "s/([æøå])/[\\1]/g"
ABCæøåDEF

用 ASCII 替换 Unicode 字符可以立即生效：

$ echo ABC123DEF | perl -CS -pe "s/([123])/[\\1]/g"
ABC[1][2][3]DEF

我的环境：

perl 5.18.2
Bash 3.2.57
LC_ALL=en_US.UTF-8
LANG=en_US.UTF-8

3 个回答

Voted

Gilles Quenot · Answer 1 · 2018-04-03T04:54:45+08:00

Best Answer

Gilles Quenot

2018-04-03T04:54:45+08:002018-04-03T04:54:45+08:00

用这个：

 $ echo 'ABCæøåDEF' |
    perl -CSD -Mutf8 -pe 's/([æøå])/[$1]/g'

也适用于文件

输出：

ABC[æ][ø][å]DEF

笔记：

替换：\\1用于awk，\1用于sed，在perl中我们使用$1
检查perldoc perlrunutf8-CSD技巧

8

haukex · Answer 2 · 2018-04-03T10:21:28+08:00

您的输入：

$ cat input.txt 
ABCæøåDEF
$ hexdump -C input.txt 
00000000  41 42 43 c3 a6 c3 b8 c3  a5 44 45 46 0a           |ABC......DEF.|
0000000d

IMO 的一种好方法是-C选项加utf8：

$ perl -CSD -Mutf8 -pe 's/([æøå])/[$1]/g' input.txt 
ABC[æ][ø][å]DEF
$ cat input.txt | perl -CSD -Mutf8 -pe 's/([æøå])/[$1]/g'
ABC[æ][ø][å]DEF

如果你不想在命令行上使用 UTF-8，你总是可以用纯 ASCII 写你的 Perl 代码，并使用转义符，比如\xAB, \x{ABCD}，或者在更新的 Perls\N{U+ABCD}或者\N{CHARNAME}:

$ perl -CSD -pe 's/([\xE6\xF8\xE5])/[$1]/g' input.txt 
ABC[æ][ø][å]DEF
$ cat input.txt | perl -CSD -pe 's/([\xE6\xF8\xE5])/[$1]/g'
ABC[æ][ø][å]DEF

这个有点创意：@ARGV将被解释为 UTF-8，因此您可以将源代码保留为 ASCII 并通过命令行参数传递 UTF-8 字符（不一定是最好的解决方案，只是展示您如何制作使用该-CA选项）：

$ perl -CSDA -pe 'BEGIN{$p=shift;} s/($p)/[$1]/g' '[æøå]' input.txt 
ABC[æ][ø][å]DEF
$ cat input.txt | perl -CSDA -pe 'BEGIN{$p=shift;} s/($p)/[$1]/g' '[æøå]'
ABC[æ][ø][å]DEF

或者，当然，您可以随时将 oneliner 变成实际脚本，您可以在其中

use warnings;
use 5.012;
use utf8;
use open qw/:std :encoding(UTF-8)/;
use charnames qw/:full :short/;

进一步阅读：perlunitut、perlunifaq、perluniintro、perlunicode、perlunicook。

Porno Nacionais · Answer 3 · 2018-04-03T10:26:52+08:00

Porno Nacionais

2018-04-03T10:26:52+08:002018-04-03T10:26:52+08:00

$ echo 'ABCæøåDEF' | perl -CS -Mutf8 -pe 's/([æøå])/[$1]/g'

-2

用 shell perl 替换 UTF-8 字符

用这个：

输出：

笔记：

如何将 GPG 私钥和公钥导出到文件

ssh 无法协商：“找不到匹配的密码”，正在拒绝 cbc

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

如何卸载内核模块“nvidia-drm”？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

用 shell perl 替换 UTF-8 字符

3 个回答

用这个 ：

输出 ：

笔记 ：

相关问题

用这个：

输出：

笔记：