AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / unix / 问题 / 702533
Accepted
Dingo
Dingo
Asked: 2022-05-15 09:03:27 +0800 CST2022-05-15 09:03:27 +0800 CST 2022-05-15 09:03:27 +0800 CST

用 utf-8 功能替换 tr

  • 772

为了隔离一首诗的任何一行中的最后一个单词(列出所有押韵),我将几个代码片段放在一起获得这个

awk '{print $NF}' input.txt | tr 'A-Z' 'a-z'  | tr -sc 'a-z' '\n' | rev |  sort | uniq | sort -d | rev

将其应用于这样的诗歌:

Se a ciascun l'interno affanno
Si leggesse in fronte scritto
Quanti mai, che invidia fanno
Ci farebbero pietà! 

我明白了

fanno
affanno
scritto
piet

如您所见,“ pietà ”这个词没有重音字符。我想这取决于没有 tr UTF-8 功能。是否有任何替代 tr 能够在这一个班轮中执行相同的任务,但保留 UTF-8 重音字符?

text-processing unicode
  • 2 2 个回答
  • 276 Views

2 个回答

  • Voted
  1. Best Answer
    Stéphane Chazelas
    2022-05-15T09:25:42+08:002022-05-15T09:25:42+08:00

    tr关于多字节字符及其一些替代方案的 GNU 实现的限制在tr analog for unicode 字符中涵盖?.

    在这里,你可以做任何事情awk(GNU 实现至少支持多字节字符和本地化):

    < yourfile awk '{
      last = tolower($NF)
      gsub(/[^[:alpha:]]+/, "\n", last)
      print last}' |
      rev | sort -u | rev
    

    这使:

    
    pietà
    fanno
    affanno
    scritto
    

    或者,如果打算从每一行获取最后一个字母序列,使用perl(您还可以根据语言环境进行所有解码,转换为小写,反向,语言环境排序规则):

    <your-file perl -Mopen=locale -MPOSIX -lne '
      $word{lc $1}++ if /(\p{Letter}+)\P{Letter}*$/;
      END {
        print $_->[0] for
          sort {strcoll($a->[1], $b->[1])}
          map {[$_, scalar reverse $_]} keys %word
      }'
    

    或者使用 GNU 工具:

    <yourfile grep -Po '\pL+(?=\PL*$)' | sed 's/.*/\L&/' | rev | sort -u | rev
    

    或使用以下方法进行最后一个字母提取序列sed:

    <yourfile sed -E '/([[:alpha:]]+)[^[:alpha:]]*$/!d;s//\n\L\1/;s/.*\n//' |
      rev | sort -u | rev
    

    如果在第一个之后完成,这会更容易rev:

    <yourfile rev |
      sed -nE 's/^[^[:alpha:]]*([[:alpha:]]+).*$/\L\1/p' |
      sort -u | rev
    
    • 3
  2. jubilatious1
    2022-05-15T23:47:18+08:002022-05-15T23:47:18+08:00

    使用Raku(以前称为 Perl_6)

    raku -e 'my @a.=push: .comb(/<alpha>+/)[*-1] if .chars for lines;  \
            .put for @a.unique>>.flip.sort( *.fc.trans: "àèéìòù" => "aeeiou" )>>.flip;' 
    

    或者

    raku -e 'my @a.=push: .comb(/<alpha>+/)[*-1] if .chars for lines; \
            .put for @a.unique.map(*.flip).sort( *.fc.trans: "àèéìòù" => "aeeiou" ).map(*.flip);' 
    

    以上是用Raku编码的答案,默认情况下它是为处理 Unicode 而构建的。简而言之,如果lines包含chars字符(即非空白),push则通过正则表达式查找一个或多个字母字符(积极选择所需元素,而不是破坏性[*-1])。[注意,这将是一个近似值,除了仅在空格上拆分,因此仍会在结果元素中留下标点符号]。comb<alpha>+splitwordswords

    一旦@a数组被填充(这里是my @a.=push( … )去糖my @a = @a.push( … )),@a 的元素被unique-ified、flipped、sorted 和flipped 返回。

    排序是通过routine/parameters 完成的.sort( *.fc.trans: "àèéìòù" => "aeeiou" ),这意味着*元素是根据fc 大小写折叠的字符以及六个重音字符来排序的trans:"àèéìòù" => "aeeiou". 如果没有该trans例程,以这六个重音字符结尾的单词会排在列表的末尾。

    样本输入:

    Se a ciascun l'interno affanno
    Si leggesse in fronte scritto
    Quanti mai, che invidia fanno
    Ci farebbero pietà!
    

    样本输出:

    pietà
    fanno
    affanno
    scritto
    

    我冒昧地测试了 Pietro Metastasio 的另一首题为La libertà的诗。示例输出如下所示,但是我.join(", ")在代码末尾添加以返回逗号分隔的输出(而不是每行一个字)。第一个回答下面的电话trans: "àèéìòù" => "aeeiou",第二个回答下面没有电话trans: "àèéìòù" => "aeeiou":

    ~$ perl6 -e 'my @a.=push: .comb(/<alpha>+/)[*-1] if .chars for lines; .put for @a.unique.map(*.flip).sort( *.fc.trans: "àèéìòù" => "aeeiou" ).map(*.flip).join(", "); put("");' file.txt
    fa, ha, bella, quella, pena, catena, ragiona, sprona, ancora, talora, pietà, beltà, sciolta, volta, libertà, rinnova, prova, è, piace, spiace, infelice, Nice, ingannatrice, fé, me, penne, avvenne, core, ardore, colore, rossore, te, amante, incostante, fai, mai, guai, spezzai, dì, miei, sei, sdegni, segni, suoi, tuoi, così, dico, antico, parlando, dimando, umano, vano, sdegno, segno, hanno, sanno, dono, ragiono, sono, sincero, primiero, impero, altero, vero, aggiro, miro, curo, procuro, so, passò, appresso, oppresso, stesso, istesso, ingrato, prato, ascolto, volto, cimento, rammento, sento, contento, estinto, istinto, difetto, aspetto, consolar, parlar, sdegnar, trovar, piacer, pensier, soffrir, morir, cor, amor, favor
    
    ~$ perl6 -e 'my @a.=push: .comb(/<alpha>+/)[*-1] if .chars for lines; .put for @a.unique.map(*.flip).sort( *.fc ).map(*.flip).join(", "); put("");' file.txt
    fa, ha, bella, quella, pena, catena, ragiona, sprona, ancora, talora, sciolta, volta, rinnova, prova, piace, spiace, infelice, Nice, ingannatrice, me, penne, avvenne, core, ardore, colore, rossore, te, amante, incostante, fai, mai, guai, spezzai, miei, sei, sdegni, segni, suoi, tuoi, dico, antico, parlando, dimando, umano, vano, sdegno, segno, hanno, sanno, dono, ragiono, sono, sincero, primiero, impero, altero, vero, aggiro, miro, curo, procuro, so, appresso, oppresso, stesso, istesso, ingrato, prato, ascolto, volto, cimento, rammento, sento, contento, estinto, istinto, difetto, aspetto, consolar, parlar, sdegnar, trovar, piacer, pensier, soffrir, morir, cor, amor, favor, pietà, beltà, libertà, è, fé, dì, così, passò
    

    警告:因为所有标点符号都被删除了,所以在分析过程中,连字符(如果有的话)会被分成组成词。

    • 1

相关问题

  • grep 从 $START 到 $END 的一组行并且在 $MIDDLE 中包含匹配项

  • 重新排列字母并比较两个单词

  • 在awk中的两行之间减去相同的列

  • 多行文件洗牌

  • 如何更改字符大小写(从小到大,反之亦然)?同时[重复]

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    模块 i915 可能缺少固件 /lib/firmware/i915/*

    • 3 个回答
  • Marko Smith

    无法获取 jessie backports 存储库

    • 4 个回答
  • Marko Smith

    如何将 GPG 私钥和公钥导出到文件

    • 4 个回答
  • Marko Smith

    我们如何运行存储在变量中的命令?

    • 5 个回答
  • Marko Smith

    如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域?

    • 3 个回答
  • Marko Smith

    dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

    • 2 个回答
  • Marko Smith

    如何从 systemctl 服务日志中查看最新的 x 行

    • 5 个回答
  • Marko Smith

    Nano - 跳转到文件末尾

    • 8 个回答
  • Marko Smith

    grub 错误:你需要先加载内核

    • 4 个回答
  • Marko Smith

    如何下载软件包而不是使用 apt-get 命令安装它?

    • 7 个回答
  • Martin Hope
    user12345 无法获取 jessie backports 存储库 2019-03-27 04:39:28 +0800 CST
  • Martin Hope
    Carl 为什么大多数 systemd 示例都包含 WantedBy=multi-user.target? 2019-03-15 11:49:25 +0800 CST
  • Martin Hope
    rocky 如何将 GPG 私钥和公钥导出到文件 2018-11-16 05:36:15 +0800 CST
  • Martin Hope
    Evan Carroll systemctl 状态显示:“状态:降级” 2018-06-03 18:48:17 +0800 CST
  • Martin Hope
    Tim 我们如何运行存储在变量中的命令? 2018-05-21 04:46:29 +0800 CST
  • Martin Hope
    Ankur S 为什么 /dev/null 是一个文件?为什么它的功能不作为一个简单的程序来实现? 2018-04-17 07:28:04 +0800 CST
  • Martin Hope
    user3191334 如何从 systemctl 服务日志中查看最新的 x 行 2018-02-07 00:14:16 +0800 CST
  • Martin Hope
    Marko Pacak Nano - 跳转到文件末尾 2018-02-01 01:53:03 +0800 CST
  • Martin Hope
    Kidburla 为什么真假这么大? 2018-01-26 12:14:47 +0800 CST
  • Martin Hope
    Christos Baziotis 在一个巨大的(70GB)、一行、文本文件中替换字符串 2017-12-30 06:58:33 +0800 CST

热门标签

linux bash debian shell-script text-processing ubuntu centos shell awk ssh

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve