Scouse_Bob提出的问题 -unix

Asked: 2022-09-12 21:13:24 +0800 CST

Digitalize o arquivo de texto em busca de números de identificação duplicados e retenha as linhas com o valor de data mais alto, excluindo as outras

Estou trabalhando com um arquivo de texto de várias linhas (.csv) que contém 7 colunas.

Cada linha contém o que "deveria" ser um id exclusivo. Há também algumas colunas de data, uma das quais é a data da "última modificação".

Descobri que o que deveria ser id "único" é realmente repetido de vez em quando e é um problema que preciso resolver removendo todos, exceto um.

Eu tenho um exemplo usando gawk abaixo, mas existe uma maneira de usar gawk, awk ou grep etc para excluir todas as linhas duplicadas, MAS com exceção da "mais recentemente" modificada? Então, com alguma lógica sobre o que vai e fica.

Como exemplo, esta extração csv tem duas linhas. Cada campo, exceto um, é o mesmo. O número de identificação sendo "o mesmo" significa que é uma "duplicata" para meus propósitos.

Ambas as linhas não são completamente iguais.

A data no campo final (7º) do arquivo csv torna uma entrada mais antiga que a outra.

ID12345,Here is some text,ABCDEFG,7,9,2022-08-18 20:15:00,2022-08-26 17:32:00
ID12345,Here is some text,ABCDEFG,7,9,2022-08-18 20:15:00,2022-09-11 22:15:00

É possível gawk, cat, grep, cut, awk etc no arquivo e:

a) identificar qualquer coisa com um ID duplicado. b) reter apenas as duplicatas com a data "mais recente" no último campo.

Idealmente, eu precisaria da primeira linha deixada no lugar porque ela contém os títulos do csv que está sendo alimentado em um banco de dados.

É por isso que isso quase funciona bem:

gawk -i inplace '!a[$0]++' *.csv

Na verdade, parece remover duplicatas deixando uma linha no local, mas não tem lógica para decidir o que deixar no local com base no valor de data mais antigo no campo final.

Você pode por favor ajudar...

Scouse_Bob

Asked: 2022-04-20 21:47:47 +0800 CST

O que é "utilidade" no Solaris quando referido pela seção Solaris da CPU do Oracle?

Dentro da CPU Oracle (informações sobre patches) no Solaris, alguns patches são referidos e refletem "Sistemas Oracle (componente: Utilitário)".

Você pode vê-lo aqui referido também nas informações do CVE em vários sites, como:

https://www.cvedetails.com/cve-details.php?t=1&cve_id=CVE-2022-21416

No entanto, alguém sabe o que é? Se disse "Filesystem" ou "Kernel", isso é óbvio. Isto é muito estranho. Alguém pode explicar ou adivinhar o que pode ser?

Já revisei toda a documentação aqui:

https://docs.oracle.com/en/operating-systems/solaris.html

No entanto, o significado do que é "Utility" permanece obscuro.

Digitalize o arquivo de texto em busca de números de identificação duplicados e retenha as linhas com o valor de data mais alto, excluindo as outras

O que é "utilidade" no Solaris quando referido pela seção Solaris da CPU do Oracle?

Possível firmware ausente /lib/firmware/i915/* para o módulo i915

Falha ao buscar o repositório de backports jessie

Como exportar uma chave privada GPG e uma chave pública para um arquivo

Como podemos executar um comando armazenado em uma variável?

Como configurar o systemd-resolved e o systemd-networkd para usar o servidor DNS local para resolver domínios locais e o servidor DNS remoto para domínios remotos?

apt-get update error no Kali Linux após a atualização do dist [duplicado]

Como ver as últimas linhas x do log de serviço systemctl

Nano - pule para o final do arquivo

erro grub: você precisa carregar o kernel primeiro

Como baixar o pacote não instalá-lo com o comando apt-get?

Scouse_Bob's questions