Grep para um conjunto de linhas de $START a $END AND que contém uma correspondência em $MIDDLE

Question

Asked: 2024-02-12 08:59:12 +0800 CST2024-02-12 08:59:12 +0800 CST 2024-02-12 08:59:12 +0800 CST

Buscar dados de um arquivo grande com base em hora e data recursivamente

772

Busque dados com base na data (coluna 1) e na hora (coluna 2). Cada data possui hora na coluna 2. Com base em cada data da coluna 1 serão gerados dois arquivos que terão todos os campos baseados nos horários 6h00 às 21h50:08 (dia) e 22h00 às 5h: 50:00 (noite). Tentando obter dois arquivos para cada data como date_day e date_night com base nos horários especificados.

Arquivo de entrada:

Date       Time     R1      R2      R3
03/10/2023 19:00:08 19.06   39.870  5.12
03/10/2023 19:10:08 18.87   39.970  4.98
03/10/2023 19:20:08 18.68   39.940  4.80
03/10/2023 19:30:08 18.84   40.110  5.01
03/10/2023 19:40:08 18.89   38.960  4.64
03/10/2023 19:50:08 18.60   39.100  4.43
03/10/2023 23:30:08 18.03   34.200  2.03
03/10/2023 23:40:08 17.94   33.930  1.84
03/10/2023 23:50:08 17.87   33.840  1.74
03/11/2023 00:00:08 17.75   33.790  1.61
03/11/2023 00:10:08 17.96   34.060  1.91
03/11/2023 00:20:08 18.13   33.690  1.91
03/11/2023 00:30:08 17.91   33.620  1.68

Arquivos de saída:

03/10/2023_day

Date        Time    R1      R2      R3
03/10/2023 19:00:08 19.06   39.870  5.12
03/10/2023 19:10:08 18.87   39.970  4.98
03/10/2023 19:20:08 18.68   39.940  4.80
03/10/2023 19:30:08 18.84   40.110  5.01
03/10/2023 19:40:08 18.89   38.960  4.64

03/10/2023_night

Date        Time     R1      R2      R3
03/10/2023 19:50:08 18.60   39.100  4.43
03/10/2023 23:30:08 18.03   34.200  2.03
03/10/2023 23:40:08 17.94   33.930  1.84
03/10/2023 23:50:08 17.87   33.840  1.74

03/11/2023_night:

Date       Time      R1     R2      R3
03/11/2023 00:00:08 17.75   33.790  1.61
03/11/2023 00:10:08 17.96   34.060  1.91
03/11/2023 00:20:08 18.13   33.690  1.91
03/11/2023 00:30:08 17.91   33.620  1.68

Tentei o seguinte para buscar arquivos diurnos e noturnos. Terei que fazer isso em cada data repetidas vezes. Removi o ':' da coluna de tempo no meu código para obter um número sem :. Alguém pode ajudar a colocá-lo em um loop e separar os arquivos diurnos e noturnos para cada data?

awk '$1 ~ /03\/10\/2023/ && $2 >= 060000 && $2 <= 215000' data |sed 's/\t/,/g' > 03_10_23_day.csv
awk '$1 ~ /03\/10\/2023/ && $2 > 215000' data |sed 's/\t/,/g' > 03_10_23_night.csv

3 respostas

Voted

jubilatious1 · Answer 1 · 2024-02-12T21:17:40+08:00

Usando Raku (anteriormente conhecido como Perl_6)

#OUTPUT A SPECIFIED 'TIME-OF-DAY' RANGE FOR ALL DATES IN FILE:

~$ raku -e 'my $hdr = get; my @a = lines.map: *.split(" ");  \
            my @b = do for @a { .[0..1].join("T").subst(/ (\d**2) \/ (\d**2) \/ (\d**4) /, {"$2-$0-$1"} ).DateTime, .[2..*] };  \
            put $hdr; for @b {   \
                my $start = .[0].truncated-to("day") + Duration.new(21600);  \
                my $stop  = .[0].truncated-to("day") + Duration.new(71408);  \
                put $_ if  $_.[0] ~~ $start ..^ $stop };'  file

Acima (primeira resposta) está uma abordagem usando Raku, um membro da família Perl de linguagens de programação. Uma vantagem de usar o Raku é que ISO-8601 os DateTimes são integrados. Acima filtra as linhas de entrada, fornecendo saída dentro de um $start .. $stopintervalo definido. O ..^operador de intervalo (com sinal de intercalação) exclui o ponto de tempo RHS da saída.

#OUTPUT A 'TIME-OF-DAY' RANGE FOR A SPECIFIED DATE IN FILE:

~$ raku -e 'my $target_date = DateTime.new("2023-03-10");   \
            say $target_date; my $hdr = get;  \
            my @a = lines.map: *.split(" "); my @b = do for @a { .[0..1].join("T").subst(/ (\d**2) \/ (\d**2) \/ (\d**4) /, {"$2-$0-$1"} ).DateTime, .[2..*] };  \
            put $hdr;  for @b {   \
                my $start = $target_date + Duration.new(21600);  \
                my $stop  = $target_date + Duration.new(71408);  \ 
                put $_ if  $_.[0] ~~ $start ..^ $stop };'    file

Acima (segunda resposta), um pouco mais especificamente, você pode definir $target_datee reter apenas um intervalo de 'hora do dia' para essa data na saída.

Entrada de amostra (exemplo do OP mais duas linhas extras adicionadas no final):

Date       Time     R1      R2      R3
03/10/2023 19:00:08 19.06   39.870  5.12
03/10/2023 19:10:08 18.87   39.970  4.98
03/10/2023 19:20:08 18.68   39.940  4.80
03/10/2023 19:30:08 18.84   40.110  5.01
03/10/2023 19:40:08 18.89   38.960  4.64
03/10/2023 19:50:08 18.60   39.100  4.43
03/10/2023 23:30:08 18.03   34.200  2.03
03/10/2023 23:40:08 17.94   33.930  1.84
03/10/2023 23:50:08 17.87   33.840  1.74
03/11/2023 00:00:08 17.75   33.790  1.61
03/11/2023 00:10:08 17.96   34.060  1.91
03/11/2023 00:20:08 18.13   33.690  1.91
03/11/2023 00:30:08 17.91   33.620  1.68
03/12/2023 19:00:08 19.06   39.870  5.12
03/12/2023 19:10:08 18.87   39.970  4.98

Exemplo de saída (1):

Date       Time     R1      R2      R3
2023-03-10T19:00:08Z 19.06   39.870  5.12
2023-03-10T19:10:08Z 18.87   39.970  4.98
2023-03-10T19:20:08Z 18.68   39.940  4.80
2023-03-10T19:30:08Z 18.84   40.110  5.01
2023-03-10T19:40:08Z 18.89   38.960  4.64
2023-03-12T19:00:08Z 19.06   39.870  5.12
2023-03-12T19:10:08Z 18.87   39.970  4.98

Exemplo de saída (2):

2023-03-10T00:00:00Z
Date       Time     R1      R2      R3
2023-03-10T19:00:08Z 19.06   39.870  5.12
2023-03-10T19:10:08Z 18.87   39.970  4.98
2023-03-10T19:20:08Z 18.68   39.940  4.80
2023-03-10T19:30:08Z 18.84   40.110  5.01
2023-03-10T19:40:08Z 18.89   38.960  4.64

https://docs.raku.org/linguagem/temporal
https://docs.raku.org/type/DateTime
https://raku.org

Stéphane Chazelas · Answer 2 · 2024-02-12T15:52:30+08:00

Você deseja comparações de strings em vez de comparações de números awke gera todos os arquivos de saída em uma awkinvocação. Usar um loop não faria sentido aqui:

awk -v OFS=, '
  {$1 = $1} # force reformatting with comma delimiters
  NR == 1 {header = $0; next}
  {
    split($1, f, "/")
    outfile = f[1] "_" f[2] "_" substr(f[3], 3) "_" \
              ($2 >= "06:00:00" && $2 < "22:00:00" ? "day" : "night") \
              ".csv"
    if (!seen[outfile]++) print header > outfile
    print > outfile
  }' < data

( $2 >= "06" && $2 < "22"também funcionaria aqui)

Eu sugiro nomear seus arquivos 2023-10-03-night.csvem vez de 03_10_23_night.csv(supondo que seja 3 de outubro e não 10 de março), o que significaria, lspor exemplo, mostrá-los em ordem cronológica e esse 2023-10-03é um formato inequívoco de padrão internacional.

markp-fuso · Answer 3 · 2024-02-13T01:09:35+08:00

Suposições/Entendimentos:

os nomes dos arquivos de saída são para converter datas de using /em datas usando _(por exemplo, 03/10/2023torna-se 03_10_2023)
os nomes dos arquivos de saída devem estar no formato DD_MM_YYYY_dayou DD_MM_YYY_night- de acordo com as saídas esperadas (ou seja, para esta resposta ignoraremos as .csvextensões conforme mostrado no código de exemplo do OP)
os delimitadores de campo de entrada/saída são espaços em branco - conforme exemplos de entradas/saídas (ou seja, para esta resposta ignoraremos os delimitadores implícitos de tabulação/vírgula dos OPs sed s/\t/,/g)
os dados de entrada já estão classificados por data (coluna #1) e hora (coluna #2)
os intervalos de tempo são definidos da seguinte forma (removendo as lacunas introduzidas pelas definições do OP):
day= 06:00:00para 21:59:59(vs OP: 06:00:00para 21:50:08???)
night= 22:00:00para 05:59:59(vs OP: 22:00:00para 05:50:00???)
a 03/10/2023 19:50:08entrada deve residir no _dayarquivo resultante e não no _nightarquivo (como o OP mostrou na saída esperada)
O OP deseja colocar 0[0-5]entradas (de manhã cedo) no _nightarquivo de data (em vez de a)_night colocar no arquivo de data anterior ou b) colocar em um novo _morningarquivo)
NOTA: se alguma dessas suposições/entendimentos estiver incorreta, o OP precisará atualizar a pergunta para fornecer mais detalhes e clareza

Adicionando mais algumas linhas ao arquivo de entrada de amostra:

$ cat data
Date       Time     R1      R2      R3
03/10/2023 03:10:08 19.06   39.870  5.12          # new: to be placed in '_night' file
03/10/2023 05:30:08 18.87   39.970  4.98          # new: to be placed in '_night' file
03/10/2023 19:00:08 19.06   39.870  5.12
03/10/2023 19:10:08 18.87   39.970  4.98
03/10/2023 19:20:08 18.68   39.940  4.80
03/10/2023 19:30:08 18.84   40.110  5.01
03/10/2023 19:40:08 18.89   38.960  4.64
03/10/2023 19:50:08 18.60   39.100  4.43
03/10/2023 23:30:08 18.03   34.200  2.03
03/10/2023 23:40:08 17.94   33.930  1.84
03/10/2023 23:50:08 17.87   33.840  1.74
03/11/2023 00:00:08 17.75   33.790  1.61
03/11/2023 00:10:08 17.96   34.060  1.91
03/11/2023 00:20:08 18.13   33.690  1.91
03/11/2023 00:30:08 17.91   33.620  1.68

NOTA: arquivo não contém comentários

Uma awkideia:

awk '
NR==1               { hdr = $0; next }                        # save header

$1 != prev_dt       { close(out_day)                          # if new date then close output files
                      close(out_night)

                      prev_dt = out_dt = $1                   # make note of new date
                      gsub(/\//,"_",out_dt)                   # replace "/" with "_"

                      out_day   = out_dt "_day"               # define new output file names
                      out_night = out_dt "_night"

                      hdr_flag_day = hdr_flag_night = 1       # reset "print header?" flag
                    }

$2 >= "06:00:00" &&                                           # "day"
$2 <= "21:59:59"    { if ( hdr_flag_day ) {
                         print hdr > out_day
                         hdr_flag_day = 0
                      }
                      print $0 > out_day
                      next
                    }

                    { if ( hdr_flag_night ) {                 # "night"
                         print hdr > out_night
                         hdr_flag_night = 0
                      }
                      print $0 > out_night
                    }
' data

Isso gera:

$ head 03*20??_[dn]*
==> 03_10_2023_day <==
Date       Time     R1      R2      R3
03/10/2023 19:00:08 19.06   39.870  5.12
03/10/2023 19:10:08 18.87   39.970  4.98
03/10/2023 19:20:08 18.68   39.940  4.80
03/10/2023 19:30:08 18.84   40.110  5.01
03/10/2023 19:40:08 18.89   38.960  4.64
03/10/2023 19:50:08 18.60   39.100  4.43

==> 03_10_2023_night <==
Date       Time     R1      R2      R3
03/10/2023 03:10:08 19.06   39.870  5.12
03/10/2023 05:30:08 18.87   39.970  4.98
03/10/2023 23:30:08 18.03   34.200  2.03
03/10/2023 23:40:08 17.94   33.930  1.84
03/10/2023 23:50:08 17.87   33.840  1.74

==> 03_11_2023_night <==
Date       Time     R1      R2      R3
03/11/2023 00:00:08 17.75   33.790  1.61
03/11/2023 00:10:08 17.96   34.060  1.91
03/11/2023 00:20:08 18.13   33.690  1.91
03/11/2023 00:30:08 17.91   33.620  1.68

Buscar dados de um arquivo grande com base em hora e data recursivamente

Possível firmware ausente /lib/firmware/i915/* para o módulo i915

Falha ao buscar o repositório de backports jessie

Como exportar uma chave privada GPG e uma chave pública para um arquivo

Como podemos executar um comando armazenado em uma variável?

Como configurar o systemd-resolved e o systemd-networkd para usar o servidor DNS local para resolver domínios locais e o servidor DNS remoto para domínios remotos?

apt-get update error no Kali Linux após a atualização do dist [duplicado]

Como ver as últimas linhas x do log de serviço systemctl

Nano - pule para o final do arquivo

erro grub: você precisa carregar o kernel primeiro

Como baixar o pacote não instalá-lo com o comando apt-get?

Buscar dados de um arquivo grande com base em hora e data recursivamente

3 respostas

relate perguntas