Reorganize as letras e compare duas palavras

Question

GustavMahler

Asked: 2018-03-02 05:47:04 +0800 CST2018-03-02 05:47:04 +0800 CST 2018-03-02 05:47:04 +0800 CST

Adicionando zeros à esquerda em data e hora

772

Eu tenho um csv contendo a seguinte estrutura de dados:

1111,2222,3333,4444,5555,6666,7777,2017-1-5 1:07:09,2017-1-5 1:11:53
1111,2222,3333,4444,5555,6666,7777,2017-11-25 19:57:17,2017-11-25 19:58:54

Desejo exibir as datas, mês e dia, sempre com 2 dígitos. Eu também quero que o campo times Hour sempre tenha 2 dígitos.

Essencialmente adicionando zeros à esquerda se os campos mês/dia/hora tiverem apenas um único dígito, como na linha de exemplo acima.

Usando o awk, como eu faria para alcançar o seguinte resultado:

1111,2222,3333,4444,5555,6666,7777,2017-01-05 01:07:09,2017-01-05 01:11:53
1111,2222,3333,4444,5555,6666,7777,2017-11-25 19:57:17,2017-11-25 19:58:54

5 respostas

Voted

Claus Andersen · Answer 1 · 2018-03-02T08:22:33+08:00

Uma ótima ferramenta para processamento de texto é o awk . O exemplo a seguir está usando o awk padrão simples no FreeBSD 11.1. @RomanPerekhrest tem uma solução elegante em outra resposta, se você preferir GNU awk.

Sua entrada é separada por vírgula. Por causa disso, invocamos awkcom o -F,parâmetro.

Podemos então imprimir colunas usando a printinstrução. $1é a primeira coluna. $2é a segunda coluna.

$ awk -F, '{ print $8 }' inputfile.csv
2017-1-5 1:07:09
2017-11-25 19:57:17

Isso nos dá a 8ª coluna para cada linha.

Este é o campo de data que você deseja manipular. Em vez de definir o delimitador usando o parâmetro de linha de comando, podemos fazer isso como parte do script. FS para o delimitador de entrada e OFS para o delimitador de saída.

$ awk 'BEGIN { FS = "," } ; { print $8 }' inputfile.csv
2017-1-5 1:07:09
2017-11-25 19:57:17

Ao trabalhar com datas, geralmente prefiro usar o dateutilitário para garantir que as manipule corretamente. E não preciso me preocupar se estou usando awk regular ou GNU. Além disso, recebo uma grande falha se a data não for analisada corretamente.

Os parâmetros interessantes são:

-j     Specify we do not want to set the date at all
-f     The format string we use for input
+      The format string we use for output

Então, se executarmos isso para uma data:

$ date -j -f "%Y-%m-%d %H:%M:%S" +"%Y-%m-%d %H:%M:%S" "2017-1-5 1:07:09"
2017-01-05 01:07:09

Podemos então combinar isso com awk. Observe como as aspas são escapadas . Este é provavelmente o maior obstáculo para um iniciante.

$ awk -F, '{ system("date -j -f \"%Y-%m-%d %H:%M:%S\" +\"%Y-%m-%d %H:%M:%S\" \""$8"\"")}' inputfile.csv
2017-01-05 01:07:09
2017-11-25 19:57:17

A chamada do sistema parece correta - mas infelizmente ela só nos permite capturar o código de retorno e imprimir diretamente na saída. Para evitar isso, usamos o cmd | getlinepadrão. O exemplo simples a seguir lerá a data atual em mydate:

$ awk 'BEGIN { cmd = "date"; cmd | getline mydate; close(cmd); print mydate }'
Thu Mar  1 16:26:15 CET 2018

Usamos a palavra- BEGINchave porque não temos entrada para este exemplo simples.

Então vamos expandir isso:

awk 'BEGIN { FS=","; OFS=FS };
     { 
         cmd = "date -j -f \"%Y-%m-%d %H:%M:%S\" +\"%Y-%m-%d %H:%M:%S\" \""$8"\"";
         cmd | getline firstdate;
         close(cmd);
         cmd = "date -j -f \"%Y-%m-%d %H:%M:%S\" +\"%Y-%m-%d %H:%M:%S\" \""$9"\"";
         cmd | getline seconddate;
         close(cmd);
         print $1,$2,$3,$4,$5,$6,$7,firstdate,seconddate
     }' inputfile.csv

E podemos recolhê-lo para um one-liner:

awk 'BEGIN {FS=",";OFS=FS};{cmd="date -j -f \"%Y-%m-%d %H:%M:%S\" +\"%Y-%m-%d %H:%M:%S\" \""$8"\"";cmd | getline firstdate;close(cmd);cmd="date -j -f \"%Y-%m-%d %H:%M:%S\" +\"%Y-%m-%d %H:%M:%S\" \""$9"\"";cmd | getline seconddate;close(cmd);print $1,$2,$3,$4,$5,$6,$7,firstdate,seconddate}' inputfile.csv

O que me dá a saída:

1111,2222,3333,4444,5555,6666,7777,2017-01-05 01:07:09,2017-01-05 01:11:53
1111,2222,3333,4444,5555,6666,7777,2017-11-25 19:57:17,2017-11-25 19:58:54

Termo aditivo

Como o objetivo aqui é aprender um bom hábito, é melhor atualizar esta resposta. É um mau hábito repetir o código. Quando você começar a fazer isso, você deve dividir as coisas em uma função. Como você notará, o código abaixo se torna imediatamente mais legível.

awk 'function convertdate(the_date) {
         cmd = "date -j -f \"%Y-%m-%d %H:%M:%S\" +\"%Y-%m-%d %H:%M:%S\" \""the_date"\"";
         cmd | getline formatted_date;
         close(cmd);
         return formatted_date
     }
     BEGIN { FS=","; OFS=FS };
     { 
         print $1,$2,$3,$4,$5,$6,$7,convertdate($8),convertdate($9)
     }' inputfile.csv

Faça disso um hábito e você notará como será mais fácil introduzir o tratamento de erros mais tarde.

steeldriver · Answer 2 · 2018-03-02T06:01:30+08:00

steeldriver

2018-03-02T06:01:30+08:002018-03-02T06:01:30+08:00

Se você tiver o GNU awk, poderá converter o campo final em uma string datespec separada por espaços em branco e, em seguida, reformatá-lo conforme desejado usando strftime:

awk 'BEGIN{OFS=FS=","} {gsub(/[-:]/," ",$NF); $NF = strftime("%Y-%m-%d %H:%M:%S", mktime($NF))} 1' file
1111,2222,3333,4444,5555,6666,7777,2017-1-5 1:07:09,2017-01-05 01:11:53
1111,2222,3333,4444,5555,6666,7777,2017-11-25 19:57:17,2017-11-25 19:58:54

Veja o Guia do Usuário do GNU awk: Funções de Tempo

5

RomanPerekhrest · Answer 3 · 2018-03-02T06:15:55+08:00

RomanPerekhrest

2018-03-02T06:15:55+08:002018-03-02T06:15:55+08:00

Solução GNU direta awk:

awk 'BEGIN{ FS=OFS="," }{ gsub(/\<[0-9]\>/, "0&", $8); gsub(/\<[0-9]\>/, "0&", $9) }1' file

gsub(/\<[0-9]\>/, "0&", <field>)- substitua/complemente apenas dígitos únicos autônomos dentro da string de data e hora:
- \<e \>- são limites de palavras
- &- representa a substring precisa que foi correspondida pelo padrão regexp

A saída:

1111,2222,3333,4444,5555,6666,7777,2017-01-05 01:07:09,2017-01-05 01:11:53
1111,2222,3333,4444,5555,6666,7777,2017-11-25 19:57:17,2017-11-25 19:58:54

5

MiniMax · Answer 4 · 2018-03-03T15:14:57+08:00

MiniMax

2018-03-03T15:14:57+08:002018-03-03T15:14:57+08:00

sed -r 's/([-: ])([0-9]\b)/\10\2/g' input.txt

Ele substitui todos os dígitos sozinhos, que são precedidos por [-: ]caracteres e seguidos por quaisquer caracteres que não sejam palavras.

Esta solução é curta e simples, mas propensa a erros, porque não verifica o padrão de data e apenas adiciona zero à esquerda a dígitos isolados, que estão de acordo com o [-: ][0-9]\bpadrão ( \b- corresponde a um limite de palavra). Mas como variante.

Entrada

1111,2222,3333,4444,5555,6666,7777,2017-1-5 1:07:09,2017-1-5 1:11:53
1111,2222,3333,4444,5555,6666,7777,2017-11-25 19:57:17,2017-11-25 19:58:54

Resultado

1111,2222,3333,4444,5555,6666,7777,2017-01-05 01:07:09,2017-01-05 01:11:53
1111,2222,3333,4444,5555,6666,7777,2017-11-25 19:57:17,2017-11-25 19:58:54

1

drl · Answer 5 · 2018-03-04T07:44:18+08:00

O pacote dateutils tem códigos para lidar com os detalhes de dados formatados de hora/data.

# Utility functions: print-as-echo, print-line-with-visual-space.
pe() { for _i;do printf "%s" "$_i";done; printf "\n"; }
pl() { pe;pe "-----" ;pe "$*"; }

pl " Input data file $FILE:"
head $FILE

pl " Expected output:"
cat $E

pl " Results, to standard format:"
dateutils.dconv -S <$FILE

pl " Results, to standard format, omitting the \"T\":"
dateutils.dconv -S -f '%F %T' <$FILE

produzindo:

-----
 Input data file data1:
1111,2222,3333,4444,5555,6666,7777,2017-1-5 1:07:09,2017-1-5 1:11:53
1111,2222,3333,4444,5555,6666,7777,2017-11-25 19:57:17,2017-11-25 19:58:54

-----
 Expected output:
1111,2222,3333,4444,5555,6666,7777,2017-01-05 01:07:09,2017-01-05 01:11:53
1111,2222,3333,4444,5555,6666,7777,2017-11-25 19:57:17,2017-11-25 19:58:54

-----
 Results, to standard format:
1111,2222,3333,4444,5555,6666,7777,2017-01-05T01:07:09,2017-01-05T01:11:53
1111,2222,3333,4444,5555,6666,7777,2017-11-25T19:57:17,2017-11-25T19:58:54

-----
 Results, to standard format, omitting the "T":
1111,2222,3333,4444,5555,6666,7777,2017-01-05 01:07:09,2017-01-05 01:11:53
1111,2222,3333,4444,5555,6666,7777,2017-11-25 19:57:17,2017-11-25 19:58:54

Em um sistema como:

OS, ker|rel, machine: Linux, 3.16.0-4-amd64, x86_64
Distribution        : Debian 8.9 (jessie) 
bash GNU bash 4.3.30
dateutils.dconv dconv 0.3.1

Alguns detalhes para dconv:

dateutils.dconv Convert DATE/TIMEs between calendrical systems. (man)
Path    : /usr/bin/dateutils.dconv
Package : dateutils
Home    : http://www.fresse.org/dateutils
Version : 0.3.1
Type    : ELF 64-bit LSB shared object, x86-64, version 1 ( ...)
Help    : probably available with -h,--help
Home    : https://github.com/hroptatyr/dateutils (doc)

Muitas felicidades ... felicidades, drl

Adicionando zeros à esquerda em data e hora

Termo aditivo

Como exportar uma chave privada GPG e uma chave pública para um arquivo

ssh Não é possível negociar: "nenhuma cifra correspondente encontrada", está rejeitando o cbc

Como podemos executar um comando armazenado em uma variável?

Como configurar o systemd-resolved e o systemd-networkd para usar o servidor DNS local para resolver domínios locais e o servidor DNS remoto para domínios remotos?

Como descarregar o módulo do kernel 'nvidia-drm'?

apt-get update error no Kali Linux após a atualização do dist [duplicado]

Como ver as últimas linhas x do log de serviço systemctl

Nano - pule para o final do arquivo

erro grub: você precisa carregar o kernel primeiro

Como baixar o pacote não instalá-lo com o comando apt-get?

Adicionando zeros à esquerda em data e hora

5 respostas

Termo aditivo

relate perguntas