grep 从 $START 到 $END 的一组行并且在 $MIDDLE 中包含匹配项

Question

Dingo

Asked: 2022-05-15 09:03:27 +0800 CST2022-05-15 09:03:27 +0800 CST 2022-05-15 09:03:27 +0800 CST

用 utf-8 功能替换 tr

772

为了隔离一首诗的任何一行中的最后一个单词（列出所有押韵），我将几个代码片段放在一起获得这个

awk '{print $NF}' input.txt | tr 'A-Z' 'a-z'  | tr -sc 'a-z' '\n' | rev |  sort | uniq | sort -d | rev

将其应用于这样的诗歌：

Se a ciascun l'interno affanno
Si leggesse in fronte scritto
Quanti mai, che invidia fanno
Ci farebbero pietà!

我明白了

fanno
affanno
scritto
piet

如您所见，“ pietà ”这个词没有重音字符。我想这取决于没有 tr UTF-8 功能。是否有任何替代 tr 能够在这一个班轮中执行相同的任务，但保留 UTF-8 重音字符？

2 个回答

Voted

Stéphane Chazelas · Answer 1 · 2022-05-15T09:25:42+08:00

tr关于多字节字符及其一些替代方案的 GNU 实现的限制在tr analog for unicode 字符中涵盖？.

在这里，你可以做任何事情awk（GNU 实现至少支持多字节字符和本地化）：

< yourfile awk '{
  last = tolower($NF)
  gsub(/[^[:alpha:]]+/, "\n", last)
  print last}' |
  rev | sort -u | rev

这使：


pietà
fanno
affanno
scritto

或者，如果打算从每一行获取最后一个字母序列，使用perl（您还可以根据语言环境进行所有解码，转换为小写，反向，语言环境排序规则）：

<your-file perl -Mopen=locale -MPOSIX -lne '
  $word{lc $1}++ if /(\p{Letter}+)\P{Letter}*$/;
  END {
    print $_->[0] for
      sort {strcoll($a->[1], $b->[1])}
      map {[$_, scalar reverse $_]} keys %word
  }'

或者使用 GNU 工具：

<yourfile grep -Po '\pL+(?=\PL*$)' | sed 's/.*/\L&/' | rev | sort -u | rev

或使用以下方法进行最后一个字母提取序列sed：

<yourfile sed -E '/([[:alpha:]]+)[^[:alpha:]]*$/!d;s//\n\L\1/;s/.*\n//' |
  rev | sort -u | rev

如果在第一个之后完成，这会更容易rev：

<yourfile rev |
  sed -nE 's/^[^[:alpha:]]*([[:alpha:]]+).*$/\L\1/p' |
  sort -u | rev

jubilatious1 · Answer 2 · 2022-05-15T23:47:18+08:00

使用Raku（以前称为 Perl_6）

raku -e 'my @a.=push: .comb(/<alpha>+/)[*-1] if .chars for lines;  \
        .put for @a.unique>>.flip.sort( *.fc.trans: "àèéìòù" => "aeeiou" )>>.flip;'

或者

raku -e 'my @a.=push: .comb(/<alpha>+/)[*-1] if .chars for lines; \
        .put for @a.unique.map(*.flip).sort( *.fc.trans: "àèéìòù" => "aeeiou" ).map(*.flip);'

以上是用Raku编码的答案，默认情况下它是为处理 Unicode 而构建的。简而言之，如果lines包含chars字符（即非空白），push则通过正则表达式查找一个或多个字母字符（积极选择所需元素，而不是破坏性[*-1]）。[注意，这将是一个近似值，除了仅在空格上拆分，因此仍会在结果元素中留下标点符号]。comb<alpha>+splitwordswords

一旦@a数组被填充（这里是my @a.=push( … )去糖my @a = @a.push( … )），@a 的元素被unique-ified、flipped、sorted 和flipped 返回。

排序是通过routine/parameters 完成的.sort( *.fc.trans: "àèéìòù" => "aeeiou" )，这意味着*元素是根据fc 大小写折叠的字符以及六个重音字符来排序的trans："àèéìòù" => "aeeiou". 如果没有该trans例程，以这六个重音字符结尾的单词会排在列表的末尾。

样本输入：

Se a ciascun l'interno affanno
Si leggesse in fronte scritto
Quanti mai, che invidia fanno
Ci farebbero pietà!

样本输出：

pietà
fanno
affanno
scritto

我冒昧地测试了 Pietro Metastasio 的另一首题为La libertà的诗。示例输出如下所示，但是我.join(", ")在代码末尾添加以返回逗号分隔的输出（而不是每行一个字）。第一个回答下面的电话trans: "àèéìòù" => "aeeiou"，第二个回答下面没有电话trans: "àèéìòù" => "aeeiou"：

~$ perl6 -e 'my @a.=push: .comb(/<alpha>+/)[*-1] if .chars for lines; .put for @a.unique.map(*.flip).sort( *.fc.trans: "àèéìòù" => "aeeiou" ).map(*.flip).join(", "); put("");' file.txt
fa, ha, bella, quella, pena, catena, ragiona, sprona, ancora, talora, pietà, beltà, sciolta, volta, libertà, rinnova, prova, è, piace, spiace, infelice, Nice, ingannatrice, fé, me, penne, avvenne, core, ardore, colore, rossore, te, amante, incostante, fai, mai, guai, spezzai, dì, miei, sei, sdegni, segni, suoi, tuoi, così, dico, antico, parlando, dimando, umano, vano, sdegno, segno, hanno, sanno, dono, ragiono, sono, sincero, primiero, impero, altero, vero, aggiro, miro, curo, procuro, so, passò, appresso, oppresso, stesso, istesso, ingrato, prato, ascolto, volto, cimento, rammento, sento, contento, estinto, istinto, difetto, aspetto, consolar, parlar, sdegnar, trovar, piacer, pensier, soffrir, morir, cor, amor, favor

~$ perl6 -e 'my @a.=push: .comb(/<alpha>+/)[*-1] if .chars for lines; .put for @a.unique.map(*.flip).sort( *.fc ).map(*.flip).join(", "); put("");' file.txt
fa, ha, bella, quella, pena, catena, ragiona, sprona, ancora, talora, sciolta, volta, rinnova, prova, piace, spiace, infelice, Nice, ingannatrice, me, penne, avvenne, core, ardore, colore, rossore, te, amante, incostante, fai, mai, guai, spezzai, miei, sei, sdegni, segni, suoi, tuoi, dico, antico, parlando, dimando, umano, vano, sdegno, segno, hanno, sanno, dono, ragiono, sono, sincero, primiero, impero, altero, vero, aggiro, miro, curo, procuro, so, appresso, oppresso, stesso, istesso, ingrato, prato, ascolto, volto, cimento, rammento, sento, contento, estinto, istinto, difetto, aspetto, consolar, parlar, sdegnar, trovar, piacer, pensier, soffrir, morir, cor, amor, favor, pietà, beltà, libertà, è, fé, dì, così, passò

警告：因为所有标点符号都被删除了，所以在分析过程中，连字符（如果有的话）会被分成组成词。

用 utf-8 功能替换 tr

模块 i915 可能缺少固件 /lib/firmware/i915/*

无法获取 jessie backports 存储库

如何将 GPG 私钥和公钥导出到文件

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

用 utf-8 功能替换 tr

2 个回答

相关问题