Existe uma maneira de fazer ls mostrar arquivos ocultos apenas para determinados diretórios?

Question

Asked: 2024-01-29 17:07:34 +0800 CST2024-01-29 17:07:34 +0800 CST 2024-01-29 17:07:34 +0800 CST

Como criar uma nova coluna e adicionar um identificador aleatório a ela com miller

772

Quero adicionar uma coluna com um "número de caso" criado aleatoriamente ao meu csvarquivo. As primeiras 2 letras do número do caso devem ser qualquer letra de AZ em maiúscula. seguido por 5 números aleatórios.

entrada:

COMPANY,NAME,STREET,ZIP,CITY,IBAN
Test Ltd,John,Big Ben 343,4343,London,UK2348020384
Test Ltd,Kate,Big Ben 343,4343,London,UK4389223892
Test Ltd,Jake,Big Ben 343,4343,London,UK3892898999

saída

COMPANY,NAME,STREET,ZIP,CITY,IBAN,CASENUMBER
Test Ltd,John,Big Ben 343,4343,London,UK2348020384,IN84903
Test Ltd,Kate,Big Ben 343,4343,London,UK4389223892,TY93842
Test Ltd,Jake,Big Ben 343,4343,London,UK3892898999,OL34307

Como fazer isso com o moleiro? Eu tenho o seguinte comando pronto

mlr -I --csv put '${CASENUMBER}=xxx' then \
    reorder -f COMPANY,NAME,STREET,ZIP,CITY,IBAN,CASENUMBER input/input.csv

O que adicionar exatamente ao comando acima?

5 respostas

Voted

Kusalananda · Answer 1 · 2024-01-29T18:46:45+08:00

Isso não usa Miller (principalmente porque não consegui encontrar uma maneira conveniente de usar caracteres aleatórios), mas GNU Awk:

awk -i ord -v OFS=, '
    function randint(n) { return int(n*rand()) }
    BEGIN { srand(); A = ord("A"); Z = ord("Z") }
    NR == 1 { printf("%s,CASENUMBER\n", $0); next }
    { printf "%s,%c%c%.5d\n", $0, A + randint(Z-A+1), A + randint(Z-A+1), randint(100000) }' file.csv

Este comando GNU Awk extrai a ord()função da ord.awkbiblioteca (que é distribuída junto com o GNU Awk) para poder converter entre um caractere e sua representação ASCII. Em seguida, ele inicializa o gerador de números aleatórios srand()e pré-calcula os valores ASCII para as letras Ae Zpor conveniência.

Se o registro atual for o primeiro registro (ou seja, for o cabeçalho CSV), ele será gerado com a string ,CASENUMBERanexada.

Para todos os outros registros, ele gera o registro original com uma string anexada após uma vírgula. A string é calculada como dois caracteres e um número preenchido com zero. Os dois caracteres são escolhidos no intervalo [A,Z]e o número é escolhido no intervalo [0,100000). A seleção aleatória de números inteiros de um intervalo é feita usando a randint()função, que estou usando sem modificações no manual do GNU Awk .

Um exemplo de saída da execução disso nos dados fornecidos:

COMPANY,NAME,STREET,ZIP,CITY,IBAN,CASENUMBER
Test Ltd,John,Big Ben 343,4343,London,UK2348020384,HP88271
Test Ltd,Kate,Big Ben 343,4343,London,UK4389223892,XS17910
Test Ltd,Jake,Big Ben 343,4343,London,UK3892898999,UX00409

Observe que, desde que assumamos que nenhum campo contém novas linhas incorporadas, não precisamos realmente analisar os dados de entrada. Com essa suposição, basta anexar novos dados ao final de cada linha.

terdon apontou nos comentários que pode ser uma boa ideia garantir que os IDs de casos computados sejam exclusivos. Isso é feito controlando os IDs já gerados em uma matriz associativa chamada seen:

awk -i ord -v OFS=, '
    function randint(n) { return int(n*rand()) }
    function randid() { return sprintf("%c%c%.5d", A + randint(Z-A+1), A + randint(Z-A+1), randint(100000)) }

    BEGIN { srand(); A = ord("A"); Z = ord("Z") }
    NR == 1 { printf("%s,CASENUMBER\n", $0); next }
    {
        id = randid()
        while (seen[id]++ > 0) id = randid()
        printf "%s,%s\n", $0, id
    }' file.csv

Também movi a criação do ID do caso aleatório para uma função própria, pois precisamos chamá-lo duas vezes na parte principal do código.

steeldriver · Answer 2 · 2024-01-29T22:26:23+08:00

Você poderia usar urandintpara escrever um gerador de caracteres aleatórios rápido e sujo usando o fatiamento de strings:

$ mlr --csv put '
  func urandchars(n) { 
    chars = "ABCDEFGHIJKLMNOPQRSTUVWXYZ";
    x = "";
    while (n > 0) { 
      i = urandint(1,26);
      x = x . chars[i:i];
      n = n - 1;
    }
    return x;
  } 
  ${CASENUMBER} = urandchars(2) . fmtnum(urandint(0,99999),"%05d")' input.csv
COMPANY,NAME,STREET,ZIP,CITY,IBAN,CASENUMBER
Test Ltd,John,Big Ben 343,4343,London,UK2348020384,AL18156
Test Ltd,Kate,Big Ben 343,4343,London,UK4389223892,AS15594
Test Ltd,Jake,Big Ben 343,4343,London,UK3892898999,SY61706

aborruso · Answer 3 · 2024-01-29T22:00:26+08:00

Uma maneira de fazer isso em Miller.

alphabet="[\"A\", \"B\", \"C\", \"D\", \"E\", \"F\", \"G\", \"H\", \"I\", \"J\", \"K\", \"L\", \"M\", \"N\", \"O\", \"P\", \"Q\", \"R\", \"S\", \"T\", \"U\", \"V\", \"W\", \"X\", \"Y\", \"Z\"]"

mlr --csv put '$CASENUMBER=urandelement('"$alphabet"').urandelement('"$alphabet"').substr0(urand32(),0,5)' input.csv

Voce terá

EMPRESA	NOME	RUA	fecho eclair	CIDADE	IBAN	NÚMERO DO PROCESSO
Teste Ltda	John	Grande Ben 343	4343	Londres	Reino Unido2348020384	BV134526
Teste Ltda	Kate	Grande Ben 343	4343	Londres	Reino Unido4389223892	ZF321045
Teste Ltda	Jake	Grande Ben 343	4343	Londres	Reino Unido3892898999	VQ302039

Stéphane Chazelas · Answer 4 · 2024-01-30T02:40:16+08:00

Com perl:

perl -lpe '$_ .= $. == 1 ? ",CASENUMBER" : sprintf ",%s%s%05d", ("A".."Z")[rand 26,rand 26], rand 1e5'

Isso pressupõe que os campos CSV não contenham caracteres de nova linha. Se possível, você pode usar Text::CSVo módulo do Perl para fazer a análise e formatação adequada de CSV, como Miller faz.

Ed Morton · Answer 5 · 2024-01-30T05:59:29+08:00

Usando qualquer awk:

$ cat tst.sh
#!/usr/bin/env bash

[[ -s /dev/urandom ]] && seed="$(od -An -N4 -tu4 /dev/urandom)"

awk -v seed="$seed" '
    BEGIN {
        if (seed) srand(seed); else srand()
        FS = OFS = ","

        chars = "ABCDEFGHIJKLMNOPQRSTUVWXYZ"
        numChars = length(chars)
        for ( i=1; i<=numChars; i++ ) {
            for ( j=1; j<=numChars; j++ ) {
                strs[++numStrs] = substr(chars,i,1) substr(chars,j,1)
            }
        }

        numDigitCols = 5
        numNumbers = length("0123456789") ^ numDigitCols
        maxUnqAttempts = 100
    }

    {
        for ( attempts=1; attempts<=maxUnqAttempts; attempts++ ) {
            id = sprintf( "%s%05g", strs[int(1+rand()*numStrs)], int(rand()*numNumbers) )
            if ( !seen[id]++ ) {
                break
            }
        }

        if ( attempts > maxUnqAttempts ) {
            printf "%s[%d]: Failed to generate a unique ID after %d attempts, reusing %s\n", FILENAME, NR, maxUnqAttempts, id | "cat>&2"
        }

        print $0, (NR>1 ? id : "CASENUMBER")
    }

' "${@:--}"

$ ./tst.sh input.csv
COMPANY,NAME,STREET,ZIP,CITY,IBAN,CASENUMBER
Test Ltd,John,Big Ben 343,4343,London,UK2348020384,TT93580
Test Ltd,Kate,Big Ben 343,4343,London,UK4389223892,MP70836
Test Ltd,Jake,Big Ben 343,4343,London,UK3892898999,TM77788

Como criar uma nova coluna e adicionar um identificador aleatório a ela com miller

Possível firmware ausente /lib/firmware/i915/* para o módulo i915

Falha ao buscar o repositório de backports jessie

Como exportar uma chave privada GPG e uma chave pública para um arquivo

Como podemos executar um comando armazenado em uma variável?

Como configurar o systemd-resolved e o systemd-networkd para usar o servidor DNS local para resolver domínios locais e o servidor DNS remoto para domínios remotos?

apt-get update error no Kali Linux após a atualização do dist [duplicado]

Como ver as últimas linhas x do log de serviço systemctl

Nano - pule para o final do arquivo

erro grub: você precisa carregar o kernel primeiro

Como baixar o pacote não instalá-lo com o comando apt-get?

Como criar uma nova coluna e adicionar um identificador aleatório a ela com miller

5 respostas

relate perguntas