kaur提出的问题 -unix

Asked: 2024-01-13 05:58:23 +0800 CST

grep 20 mil palavras de um arquivo

4

eu tenho 5.000 arquivos em uma pasta. esses arquivos são nomeados XX0000001 a XX0005000

estou tentando obter palavras de cada um desses arquivos e grep-las e a próxima linha em outro arquivo (target.txt)

tenho cerca de 30.000 palavras em alguns dos arquivos XX*

Existe alguma maneira de fazer isso ?

eu tentei :

start_number=0000001
end_number=0005000
words_file=target.txt
output_folder="output_results"
mkdir -p "$output_folder"
for ((i=start_number; i <=end_number; i++)); do
   filename="XX$(printf "%07d" "$i")"
   output_file="$output_folder/output_${filename}.txt"
   while read -r word; do
      awk -v word="$word" '{for (i=1; i<=NF; i++) if($1 ~ word) {print; next}}' "$filename" >> "$output_file"
   done < "$words_file"
done

existe uma maneira mais rápida de fazer isso? meu arquivo de destino tem milhões de linhas para pesquisar; o arquivo de destino preciso tem 20 Gigabytes e 106441678 linhas

por exemplo: o arquivo XX0000001 se parece com:
Big1 Big5 Big7 Big10 Big11 (e muito mais palavras para isso; alguns arquivos XX podem até ter até 30 mil palavras)

O arquivo Target.txt se parece com:

#Grande1

Este_é_um_arquivo_contendo_xxxx

#Grande2

Este_é_um_arquivo_contendo_xxxx

#Grande3

Este_é_um_arquivo_contendo_xxxx

#Big4

Este_é_um_arquivo_contendo_xxxx

#Big5

Este_é_um_arquivo_contendo_xxxx

#Big6

Este_é_um_arquivo_contendo_xxxx

#Big7

Este_é_um_arquivo_contendo_xxxx

#Big8

Este_é_um_arquivo_contendo_xxxx

#Grande9

Este_é_um_arquivo_contendo_xxxx

#Grande10

Este_é_um_arquivo_contendo_xxxx

#Big11

Este_é_um_arquivo_contendo_xxxx

#Big12

Este_é_um_arquivo_contendo_xxxx

Asked: 2024-01-12 03:53:53 +0800 CST

adicionando os primeiros 5 caracteres de um nome de arquivo a cada linha do arquivo

5

tenho muitos arquivos ".txt" em uma pasta.

para cada arquivo .txt, preciso obter os 5 primeiros caracteres do nome do arquivo e adicioná-los no início de cada linha do arquivo. também preciso adicionar um sinal "*" no início de cada linha do novo arquivo.

Eu tentei usar o seguinte comando, mas ele me deu uma saída errada nos arquivos que têm mais de um espaço por cada linha do arquivo.

awk 'FNR == 1 {chr =substr(FILENAME, 0,5); name = FILENAME ".new" }{ printf("%s %s\n", "*"chr$1, $2) >name}' *.txt

alguém pode modificar o código ou me dar um método mais simples para fazer isso.

Asked: 2023-12-05 06:20:29 +0800 CST

crie novos diretórios/pastas com base no conteúdo da coluna

5

Preciso criar pastas com dados como os seguintes.

a pasta deve ser nomeada exclusivamente com base na coluna 1, por exemplo. A,B,C,D o conteúdo de cada pasta deve ser os valores correspondentes na coluna 2

além disso, também quero o número total de entradas em cada pasta

por exemplo. pasta chamada "B" deve ter "B, B1 e B2" como linhas diferentes número "3" como total como a última linha da pasta "B"

DADOS se parece com:

col1    col2
A       A
B       B
B       B1
B       B2
C       C1
C       C2
C       C3
D       D1
D       D2

Web Analytics