AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / unix / Perguntas / 407252
Accepted
FaxMax
FaxMax
Asked: 2017-11-28 02:24:54 +0800 CST2017-11-28 02:24:54 +0800 CST 2017-11-28 02:24:54 +0800 CST

Alterar uma lista de strings para letras minúsculas

  • 772

Eu tenho dois arquivos, um arquivo contém uma lista de strings.

+stringa +Dog +Cat
+cat +Tux +elephant

e o segundo arquivo (csv) contém algo como:

"123456 Abc","+Stringx +123","something"
"23456 dEf","+cat +Tux +elephant","Other something"
"34524 xyz","+stringa +Dog +Cat","third something"

o resultado deve ser:

"123456 Abc","+Stringx +123","something"
"23456 dEf","+cat +tux +elephant","Other something"
"34524 xyz","+stringa +dog +cat","third something"

Como posso alterar as strings que correspondem à minha lista de padrões para letras minúsculas?

Meu arquivo de valores separados por vírgula tem cerca de 30 colunas e cerca de 1.500 linhas.

text-processing
  • 3 3 respostas
  • 728 Views

3 respostas

  • Voted
  1. Best Answer
    Sundeep
    2017-11-28T03:02:17+08:002017-11-28T03:02:17+08:00

    Com GNU sed, assume que você não tem nenhum metacaracter na lista de strings, +não é um metacaracter com BRE padrão

    $ # create substitute command for each line
    $ sed 's/.*/s|"&"|\\L\&|gi/' f1
    s|"+stringa +Dog +Cat"|\L&|gi
    s|"+cat +Tux +elephant"|\L&|gi
    
    $ # pass those commands as sed script
    $ sed -f <(sed 's/.*/s|"&"|\\L\&|gi/' f1) ip.csv
    "123456 Abc","+Stringx +123","something"
    "23456 dEf","+cat +tux +elephant","Other something"
    "34524 xyz","+stringa +dog +cat","third something"
    
    $ # or save them in a file and use
    $ sed 's/.*/s|"&"|\\L\&|gi/' f1 > f2
    $ sed -f f2 ip.csv 
    
    • \Lpara converter string para minúsculas
    • gpara substituir todas as ocorrências em uma linha, ipara correspondência sem distinção entre maiúsculas e minúsculas


    Se você não temGNU sed

    $ # \Q to quote metacharacters
    $ # but will have issues if you have \ or $ or @
    $ sed 's/.*/s|\\Q"&"|\\L$\&|gi;/' f1
    s|\Q"+stringa +Dog +Cat"|\L$&|gi;
    s|\Q"+cat +Tux +elephant"|\L$&|gi;
    
    $ perl -p <(sed 's/.*/s|\\Q"&"|\\L$\&|gi;/' f1) ip.csv 
    "123456 Abc","+Stringx +123","something"
    "23456 dEf","+cat +tux +elephant","Other something"
    "34524 xyz","+stringa +dog +cat","third something"
    


    Conforme observado por Stéphane Chazelas, isso pode levar a vulnerabilidades de injeção de código se o conteúdo de f1não estiver sob controle

    • 3
  2. RomanPerekhrest
    2017-11-28T02:50:44+08:002017-11-28T02:50:44+08:00

    AWKsolução (para sua entrada atual):

    Supondo que o segundo campo seja de interesse principal e os valores no arquivo de pesquisa estejam entre aspas duplas.

    awk 'NR==FNR{ $0="\042"$0"\042"; a[$0]; next }
         $2 in a{ $2=tolower($2) }1' patterns FS=',' OFS=',' file.csv
    
    • $0="\042"$0"\042"- envolva uma linha padrão com aspas duplas enquanto itera pelas linhas do patternsarquivo

    • a[$0]- captura de uma linha padrão em arraya

    • $2 in a{ $2=tolower($2) }- se o valor do 2º campo da linha do file.csvarquivo estiver na lista de padrões (ou seja, matriz a) - converta todos os caracteres para letras minúsculas$2=tolower($2)


    A saída:

    "123456 Abc","+Stringx +123","something"
    "23456 dEf","+cat +tux +elephant","Other something"
    "34524 xyz","+stringa +dog +cat","third something"
    
    • 2
  3. Stéphane Chazelas
    2017-11-28T03:14:59+08:002017-11-28T03:14:59+08:00

    Com perl, supondo que você queira que cada palavra no primeiro arquivo seja transformada em minúsculas:

    perl -pe '
     BEGIN {local $/ = undef; $regex = join "|", map qr{\Q$_\E}i, split " ", <>}
     s/$regex/\L$&/g' file1.words file2.csv
    

    local $/ = undeftorna o separador de registros para o bloco BEGIN indefinido, de modo que a única invocação de lá elimine todo o <>primeiro arquivo ( file1.words). depois de citá- los com regex e torná-los insensíveis a maiúsculas e minúsculas.split " "perlawk -F " "awk|

    Portanto, temos um enorme regexp que é algo parecido (?i:word1)|(?i:word2)|...com o que aplicamos em cada linha do segundo arquivo no restante do código.

    Se for cada string em cada linha do primeiro arquivo, isso pode ser simplificado para:

    perl -pe '
     BEGIN {chomp (@strings = <STDIN>); $regex = join "|", map qr{\Q$_\E}i, @strings}
     s/$regex/\L$&/g' < file1.strings file2.csv
    

    Lá, abrimos o primeiro arquivo no stdin em vez de passá-lo como argumento. <STDIN>retorna uma lista de suas linhas das quais removemos os delimitadores com chomp, e juntamos com |como acima.

    Se você não quiser que seja limitado a caracteres ASCII, adicione a -Mopen=localeopção.

    • 2

relate perguntas

  • Grep para um conjunto de linhas de $START a $END AND que contém uma correspondência em $MIDDLE

  • Reorganize as letras e compare duas palavras

  • Subtraindo a mesma coluna entre duas linhas no awk

  • Embaralhamento de arquivo de várias linhas

  • como posso alterar o caso do caractere (de baixo para cima e vice-versa)? ao mesmo tempo [duplicado]

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    Matriz JSON para bash variáveis ​​usando jq

    • 4 respostas
  • Marko Smith

    A data pode formatar a hora atual para o fuso horário GMT? [duplicado]

    • 2 respostas
  • Marko Smith

    bash + lê variáveis ​​e valores do arquivo pelo script bash

    • 4 respostas
  • Marko Smith

    Como posso copiar um diretório e renomeá-lo no mesmo comando?

    • 4 respostas
  • Marko Smith

    conexão ssh. Conexão X11 rejeitada devido a autenticação incorreta

    • 3 respostas
  • Marko Smith

    Como baixar o pacote não instalá-lo com o comando apt-get?

    • 7 respostas
  • Marko Smith

    comando systemctl não funciona no RHEL 6

    • 3 respostas
  • Marko Smith

    rsync porta 22 e 873 uso

    • 2 respostas
  • Marko Smith

    snap /dev/loop em 100% de utilização -- sem espaço livre

    • 1 respostas
  • Marko Smith

    chave de impressão jq e valor para todos no subobjeto

    • 2 respostas
  • Martin Hope
    EHerman Matriz JSON para bash variáveis ​​usando jq 2017-12-31 14:50:58 +0800 CST
  • Martin Hope
    Christos Baziotis Substitua a string em um arquivo de texto enorme (70 GB), uma linha 2017-12-30 06:58:33 +0800 CST
  • Martin Hope
    Drux A data pode formatar a hora atual para o fuso horário GMT? [duplicado] 2017-12-26 11:35:07 +0800 CST
  • Martin Hope
    AllisonC Como posso copiar um diretório e renomeá-lo no mesmo comando? 2017-12-22 05:28:06 +0800 CST
  • Martin Hope
    Steve Como as permissões de arquivo funcionam para o usuário "root"? 2017-12-22 02:46:01 +0800 CST
  • Martin Hope
    Bagas Sanjaya Por que o Linux usa LF como caractere de nova linha? 2017-12-20 05:48:21 +0800 CST
  • Martin Hope
    Cbhihe Altere o editor padrão para vim para _ sudo systemctl edit [unit-file] _ 2017-12-03 10:11:38 +0800 CST
  • Martin Hope
    showkey Como baixar o pacote não instalá-lo com o comando apt-get? 2017-12-03 02:15:02 +0800 CST
  • Martin Hope
    youxiao Por que os diretórios /home, /usr, /var, etc. têm o mesmo número de inode (2)? 2017-12-02 05:33:41 +0800 CST
  • Martin Hope
    user223600 gpg — o comando list-keys gera uid [ desconhecido ] depois de importar a chave privada para uma instalação limpa 2017-11-26 18:26:02 +0800 CST

Hot tag

linux bash debian shell-script text-processing ubuntu centos shell awk ssh

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve