Grep para um conjunto de linhas de $START a $END AND que contém uma correspondência em $MIDDLE

Question

Asked: 2023-07-02 07:54:28 +0800 CST2023-07-02 07:54:28 +0800 CST 2023-07-02 07:54:28 +0800 CST

classifique todo o .csv com base no valor em uma determinada coluna

772

Eu tenho um csvarquivo com receitas diferentes. Desejo classificar o arquivo csv na receita de valor alto para baixo . Não consigo encontrar como fazer isso no terminal sem o uso de python.

Eu não quero usar python.

Eu quero usar algo simples como mlr// .sedawk

Entrada:

name,location,capital,profit-lost,revenue,employees,year
company1,location1,35527.19,-33226.25,,0.70,2020
company2,location2,-155921.70,-146.03,,,2020
company3,location3,1873134.74,778424.56,13320152.32,16.90,2020
company4,location4,1050987.60,426317.61,,24.90,2021
company5,location5,368506.18,11997.04,,,2019
company6,location6,7965648.89,369947.14,64413602.44,103.30,2019
company7,location7,1531534.27,125750.94,3054307.36,12.10,2020
company8,location8,6161574.62,906591.96,124804038.64,51.30,2021

Saída:

name,location,capital,profit-lost,revenue,employees,year
company8,location8,6161574.62,906591.96,124804038.64,51.30,2021
company6,location6,7965648.89,369947.14,64413602.44,103.30,2019
company3,location3,1873134.74,778424.56,13320152.32,16.90,2020
company7,location7,1531534.27,125750.94,3054307.36,12.10,2020
company1,location1,35527.19,-33226.25,,0.70,2020
company2,location2,-155921.70,-146.03,,,2020
company4,location4,1050987.60,426317.61,,24.90,2021
company5,location5,368506.18,11997.04,,,2019

A receita está vazia para bilhões.

Espero que alguém possa me ajudar com isso também

6 respostas

Voted

annahri · Answer 1 · 2023-07-02T08:15:45+08:00

Usando sort:

cat input.csv | (sed -u 1q; sort -t, -r -n -k5)

O sed -u 1qé necessário para sortignorar o cabeçalho. Basicamente, significa processar a 1ª linha e sair, depois passar o restante para sort. -ué a abreviação de --unbuffered, para evitar processar mais do que a primeira linha.

Sinalizadores de classificação:

-t,para especificar o delimitador para uma vírgula.
-rpara tornar a saída ordenada descendente. É ascendente por padrão.
-nordenar numericamente.
-k5para classificar a 5ª chave/coluna.

Demonstração:

$ cat input.csv | (sed -u 1q; sort -t, -r -n -k5)
name,location,capital,profit-lost,revenue,employees,year
company8,location8,6161574.62,906591.96,124804038.64,51.30,2021
company6,location6,7965648.89,369947.14,64413602.44,103.30,2019
company3,location3,1873134.74,778424.56,13320152.32,16.90,2020
company7,location7,1531534.27,125750.94,3054307.36,12.10,2020
company5,location5,368506.18,11997.04,,,2019
company4,location4,1050987.60,426317.61,,24.90,2021
company2,location2,-155921.70,-146.03,,,2020
company1,location1,35527.19,-33226.25,,0.70,2020

steeldriver · Answer 2 · 2023-07-02T09:02:28+08:00

Portanto, você deseja classificar (estavelmente) a receita em ordem numericamente decrescente, o que parece fácil em Miller, exceto que suas regras para manipulação de nulos dizem:

Registros com um ou mais valores de campos de classificação vazios são classificados após registros com todos os valores de campos de classificação presentes

o que significa que eles classificam primeiro em uma classificação decrescente:

$ mlr --csv sort -nr revenue file.csv
name,location,capital,profit-lost,revenue,employees,year
company1,location1,35527.19,-33226.25,,0.70,2020
company2,location2,-155921.70,-146.03,,,2020
company4,location4,1050987.60,426317.61,,24.90,2021
company5,location5,368506.18,11997.04,,,2019
company8,location8,6161574.62,906591.96,124804038.64,51.30,2021
company6,location6,7965648.89,369947.14,64413602.44,103.30,2019
company3,location3,1873134.74,778424.56,13320152.32,16.90,2020
company7,location7,1531534.27,125750.94,3054307.36,12.10,2020

No entanto, usando o encadeamento , é fácil decorar-classificar-desdecorar com uma chave que atribui o número 0 a receitas vazias:

$ mlr --csv put '$key = is_empty($revenue) ? 0 : $revenue' \
    then sort -nr key then cut -x -f key file.csv
name,location,capital,profit-lost,revenue,employees,year
company8,location8,6161574.62,906591.96,124804038.64,51.30,2021
company6,location6,7965648.89,369947.14,64413602.44,103.30,2019
company3,location3,1873134.74,778424.56,13320152.32,16.90,2020
company7,location7,1531534.27,125750.94,3054307.36,12.10,2020
company1,location1,35527.19,-33226.25,,0.70,2020
company2,location2,-155921.70,-146.03,,,2020
company4,location4,1050987.60,426317.61,,24.90,2021
company5,location5,368506.18,11997.04,,,2019

Ed Morton · Answer 3 · 2023-07-02T19:29:42+08:00

Usando ferramentas POSIX obrigatórias disponíveis em todos os sistemas Unix:

$ { head -n 1; sort -t, -k5,5rn; } < file
name,location,capital,profit-lost,revenue,employees,year
company8,location8,6161574.62,906591.96,124804038.64,51.30,2021
company6,location6,7965648.89,369947.14,64413602.44,103.30,2019
company3,location3,1873134.74,778424.56,13320152.32,16.90,2020
company7,location7,1531534.27,125750.94,3054307.36,12.10,2020
company1,location1,35527.19,-33226.25,,0.70,2020
company2,location2,-155921.70,-146.03,,,2020
company4,location4,1050987.60,426317.61,,24.90,2021
company5,location5,368506.18,11997.04,,,2019

Veja os comentários abaixo e a cabeça pode ler mais linhas de entrada do que as saídas? para obter informações adicionais importantes sobre o script acima.

aborruso · Answer 4 · 2023-07-03T05:51:34+08:00

O duckdb db cli é realmente uma ótima ferramenta e é simplesmente SQL

duckdb -csv -c "select * from read_csv_auto('input.csv') order by revenue desc"

E você consegue

name,location,capital,profit-lost,revenue,employees,year
company8,location8,6161574.62,906591.96,124804038.64,51.3,2021
company6,location6,7965648.89,369947.14,64413602.44,103.3,2019
company3,location3,1873134.74,778424.56,13320152.32,16.9,2020
company7,location7,1531534.27,125750.94,3054307.36,12.1,2020
company1,location1,35527.19,-33226.25,,0.7,2020
company2,location2,-155921.7,-146.03,,,2020
company4,location4,1050987.6,426317.61,,24.9,2021
company5,location5,368506.18,11997.04,,,2019

drewk · Answer 5 · 2023-07-03T00:34:28+08:00

MacOS tem Ruby como padrão e Ruby tem um analisador csv integrado.

Aqui está um rubi:

ruby -r csv -e 'tbl=CSV.parse($<.read, **{:headers=>true, :converters=>:all}).to_a
    header=tbl.shift
    puts header.to_csv
    idx=header.index("revenue")
    puts tbl.sort_by.with_index{|row, i| [row[idx].nil? ? 0 : -row[idx] ,i] }.
        map{|row| row.to_csv}
' file

Ou você pode usar o GNU awk (não o awk nativo do MacOS) desta maneira:

gawk -F, '
FNR==1{print; next}
{if (-$5 in a) {a[-$5 "_" FNR]=$0} else {a[-$5]=$0}}
END{PROCINFO["sorted_in"]="@ind_num_asc"
    for(i in a) print a[i] 
}
' file

Ou awk regular do MacOS e criar um pipe para sort(que é o mais rápido desses três):

awk -F, 'FNR==1{print; next}
{print|"sort -t, -nk5,5rn"}' file

Qualquer uma dessas impressões:

name,location,capital,profit-lost,revenue,employees,year
company8,location8,6161574.62,906591.96,124804038.64,51.3,2021
company6,location6,7965648.89,369947.14,64413602.44,103.3,2019
company3,location3,1873134.74,778424.56,13320152.32,16.9,2020
company7,location7,1531534.27,125750.94,3054307.36,12.1,2020
company1,location1,35527.19,-33226.25,,0.7,2020
company2,location2,-155921.7,-146.03,,,2020
company4,location4,1050987.6,426317.61,,24.9,2021
company5,location5,368506.18,11997.04,,,2019

jubilatious1 · Answer 6 · 2023-07-04T13:46:46+08:00

Usando Raku (anteriormente conhecido como Perl_6)

~$ raku -e 'lines.head.put;  my @a = lines(); .put for @a.sort(-*.split(",")[4]);'  file

#OR

~$ raku -e 'lines.head.put; .put for lines.sort(-*.split(",")[4]);'  file

Resumidamente, a primeira line(linha do cabeçalho) é lida e imediatamente descarregada put. Em seguida, o restante das linhas é lido. No primeiro exemplo, as linhas de valor são armazenadas no @aarray. No segundo exemplo, as linhas são classificadas diretamente. A sortfunção pega um mapeador, classificando aqui as linhas que estavam splitem vírgulas e, em seguida, pegando a 5ª coluna (zero-index = 4). Como a classificação é normalmente em ordem crescente, o -*.sinal negativo é usado para inverter a ordem de classificação.

Exemplo de entrada:

name,location,capital,profit-lost,revenue,employees,year
company1,location1,35527.19,-33226.25,,0.70,2020
company2,location2,-155921.70,-146.03,,,2020
company3,location3,1873134.74,778424.56,13320152.32,16.90,2020
company4,location4,1050987.60,426317.61,,24.90,2021
company5,location5,368506.18,11997.04,,,2019
company6,location6,7965648.89,369947.14,64413602.44,103.30,2019
company7,location7,1531534.27,125750.94,3054307.36,12.10,2020
company8,location8,6161574.62,906591.96,124804038.64,51.30,2021

Saída de amostra:

name,location,capital,profit-lost,revenue,employees,year
company8,location8,6161574.62,906591.96,124804038.64,51.30,2021
company6,location6,7965648.89,369947.14,64413602.44,103.30,2019
company3,location3,1873134.74,778424.56,13320152.32,16.90,2020
company7,location7,1531534.27,125750.94,3054307.36,12.10,2020
company1,location1,35527.19,-33226.25,,0.70,2020
company2,location2,-155921.70,-146.03,,,2020
company4,location4,1050987.60,426317.61,,24.90,2021
company5,location5,368506.18,11997.04,,,2019

Para arquivos CSV mais complexos:

~$ raku -MText::CSV -e 'my @a = csv(in => $*IN); @a[1..*] = @a[1..*].sort(-*.[4]); csv(in => @a, out => $*OUT);'  <  file

https://docs.raku.org/routine/lines
https://docs.raku.org/routine/split
https://github.com/Tux/CSV
https://raku.org

classifique todo o .csv com base no valor em uma determinada coluna

Possível firmware ausente /lib/firmware/i915/* para o módulo i915

Falha ao buscar o repositório de backports jessie

Como exportar uma chave privada GPG e uma chave pública para um arquivo

Como podemos executar um comando armazenado em uma variável?

Como configurar o systemd-resolved e o systemd-networkd para usar o servidor DNS local para resolver domínios locais e o servidor DNS remoto para domínios remotos?

apt-get update error no Kali Linux após a atualização do dist [duplicado]

Como ver as últimas linhas x do log de serviço systemctl

Nano - pule para o final do arquivo

erro grub: você precisa carregar o kernel primeiro

Como baixar o pacote não instalá-lo com o comando apt-get?

classifique todo o .csv com base no valor em uma determinada coluna

6 respostas

relate perguntas